NVIDIA · pablo-garay · May 9, 2024 · May 9, 2024
diff --git a/.github/workflows/cicd-main.yml b/.github/workflows/cicd-main.yml
@@ -403,68 +403,68 @@ jobs:
         - uses: "NVIDIA/NeMo/.github/actions/cancel-workflow@main"
           if: "failure()"
 
-  L2_PTQ_Llama2_FP8:
-    needs: [cicd-test-container-setup]
-    runs-on: self-hosted-azure
-    timeout-minutes: 10
-    container:
-      image: nemoci.azurecr.io/nemo_container_${{ github.run_id }}
-      options:
-        # --user 0:128
-        --device=/dev/nvidia0
-        --gpus all
-        --shm-size=8g
-        --env TRANSFORMERS_OFFLINE=0
-        --env HYDRA_FULL_ERROR=1
-        --volume /mnt/datadrive/TestData:/home/TestData
-    steps:
-        - name: Checkout repository
-          uses: actions/checkout@v4
-        - run: |
-            python examples/nlp/language_modeling/megatron_llama_quantization.py \
-            model_file=/home/TestData/nlp/megatron_llama/llama_ci.nemo \
-            tensor_model_parallel_size=2 \
-            trainer.devices=2 \
-            quantization.calib_dataset=/home/TestData/nlp/test_quantization/test.json \
-            quantization.algorithm=fp8 \
-            quantization.num_calib_size=8 \
-            inference.batch_size=2 \
-            export.inference_tensor_parallel=2 \
-            model_save=/home/TestData/nlp/megatron_llama/ci_fp8.qnemo
-
-            rm -rf /home/TestData/nlp/megatron_llama/ci_fp8.qnemo
-        - uses: "NVIDIA/NeMo/.github/actions/cancel-workflow@main"
-          if: "failure()"
-
-  L2_PTQ_Llama2_INT8_SQ:
-    needs: [cicd-test-container-setup]
-    runs-on: self-hosted-azure
-    timeout-minutes: 10
-    container:
-      image: nemoci.azurecr.io/nemo_container_${{ github.run_id }}
-      options:
-        # --user 0:128
-        --device=/dev/nvidia0
-        --gpus all
-        --shm-size=8g
-        --env TRANSFORMERS_OFFLINE=0
-        --env HYDRA_FULL_ERROR=1
-        --volume /mnt/datadrive/TestData:/home/TestData
-    steps:
-        - name: Checkout repository
-          uses: actions/checkout@v4
-        - run: |
-            python examples/nlp/language_modeling/megatron_llama_quantization.py \
-            model_file=/home/TestData/nlp/megatron_llama/llama_ci.nemo \
-            quantization.calib_dataset=/home/TestData/nlp/test_quantization/test.json \
-            quantization.algorithm=int8_sq \
-            quantization.num_calib_size=8 \
-            inference.batch_size=2 \
-            model_save=/home/TestData/nlp/megatron_llama/ci_int8_sq.qnemo
+  # L2_PTQ_Llama2_FP8:
+  #   needs: [cicd-test-container-setup]
+  #   runs-on: self-hosted-azure
+  #   timeout-minutes: 10
+  #   container:
+  #     image: nemoci.azurecr.io/nemo_container_${{ github.run_id }}
+  #     options:
+  #       # --user 0:128
+  #       --device=/dev/nvidia0
+  #       --gpus all
+  #       --shm-size=8g
+  #       --env TRANSFORMERS_OFFLINE=0
+  #       --env HYDRA_FULL_ERROR=1
+  #       --volume /mnt/datadrive/TestData:/home/TestData
+  #   steps:
+  #       - name: Checkout repository
+  #         uses: actions/checkout@v4
+  #       - run: |
+  #           python examples/nlp/language_modeling/megatron_llama_quantization.py \
+  #           model_file=/home/TestData/nlp/megatron_llama/llama_ci.nemo \
+  #           tensor_model_parallel_size=2 \
+  #           trainer.devices=2 \
+  #           quantization.calib_dataset=/home/TestData/nlp/test_quantization/test.json \
+  #           quantization.algorithm=fp8 \
+  #           quantization.num_calib_size=8 \
+  #           inference.batch_size=2 \
+  #           export.inference_tensor_parallel=2 \
+  #           model_save=/home/TestData/nlp/megatron_llama/ci_fp8.qnemo
+
+  #           rm -rf /home/TestData/nlp/megatron_llama/ci_fp8.qnemo
+  #       - uses: "NVIDIA/NeMo/.github/actions/cancel-workflow@main"
+  #         if: "failure()"
 
-            rm -rf /home/TestData/nlp/megatron_llama/ci_int8_sq.qnemo
-        - uses: "NVIDIA/NeMo/.github/actions/cancel-workflow@main"
-          if: "failure()"
+  # L2_PTQ_Llama2_INT8_SQ:
+  #   needs: [cicd-test-container-setup]
+  #   runs-on: self-hosted-azure
+  #   timeout-minutes: 10
+  #   container:
+  #     image: nemoci.azurecr.io/nemo_container_${{ github.run_id }}
+  #     options:
+  #       # --user 0:128
+  #       --device=/dev/nvidia0
+  #       --gpus all
+  #       --shm-size=8g
+  #       --env TRANSFORMERS_OFFLINE=0
+  #       --env HYDRA_FULL_ERROR=1
+  #       --volume /mnt/datadrive/TestData:/home/TestData
+  #   steps:
+  #       - name: Checkout repository
+  #         uses: actions/checkout@v4
+  #       - run: |
+  #           python examples/nlp/language_modeling/megatron_llama_quantization.py \
+  #           model_file=/home/TestData/nlp/megatron_llama/llama_ci.nemo \
+  #           quantization.calib_dataset=/home/TestData/nlp/test_quantization/test.json \
+  #           quantization.algorithm=int8_sq \
+  #           quantization.num_calib_size=8 \
+  #           inference.batch_size=2 \
+  #           model_save=/home/TestData/nlp/megatron_llama/ci_int8_sq.qnemo
+
+  #           rm -rf /home/TestData/nlp/megatron_llama/ci_int8_sq.qnemo
+  #       - uses: "NVIDIA/NeMo/.github/actions/cancel-workflow@main"
+  #         if: "failure()"
 
   #L2_PTQ_Llama2_INT4_AWQ:
   #  needs: [cicd-test-container-setup]