From 9825aa080b2a99976054724958f3063a64887119 Mon Sep 17 00:00:00 2001
From: "jiang1.li" <jiang1.li@intel.com>
Date: Mon, 29 Jul 2024 06:50:07 +0000
Subject: [PATCH] timeout

---
 .buildkite/run-cpu-test.sh | 44 ++++++++++++++++++++++----------------
 1 file changed, 25 insertions(+), 19 deletions(-)

diff --git a/.buildkite/run-cpu-test.sh b/.buildkite/run-cpu-test.sh
index 45bc8eb2f8477..e248e5dcea6ba 100644
--- a/.buildkite/run-cpu-test.sh
+++ b/.buildkite/run-cpu-test.sh
@@ -17,24 +17,30 @@ docker run -itd --entrypoint /bin/bash -v ~/.cache/huggingface:/root/.cache/hugg
 docker run -itd --entrypoint /bin/bash -v ~/.cache/huggingface:/root/.cache/huggingface --cpuset-cpus=48-95 \
  --cpuset-mems=1 --privileged=true --network host -e HF_TOKEN --env VLLM_CPU_KVCACHE_SPACE=4 --shm-size=4g --name cpu-test-avx2 cpu-test-avx2
 
-# offline inference
-docker exec cpu-test-avx2 bash -c "python3 examples/offline_inference.py"
+function cpu_tests() {
+    # offline inference
+    docker exec cpu-test-avx2 bash -c "python3 examples/offline_inference.py"
 
-# Run basic model test
-docker exec cpu-test bash -c "
-  pip install pytest Pillow protobuf
-  pytest -v -s tests/models -m \"not vlm\" --ignore=tests/models/test_embedding.py --ignore=tests/models/test_registry.py --ignore=tests/models/test_jamba.py --ignore=tests/models/test_danube3_4b.py" # Mamba and Danube3-4B on CPU is not supported
+    # Run basic model test
+    docker exec cpu-test bash -c "
+        pip install pytest Pillow protobuf
+        pytest -v -s tests/models -m \"not vlm\" --ignore=tests/models/test_embedding.py --ignore=tests/models/test_registry.py --ignore=tests/models/test_jamba.py --ignore=tests/models/test_danube3_4b.py" # Mamba and Danube3-4B on CPU is not supported
 
-# online inference
-docker exec cpu-test bash -c "
-  export VLLM_CPU_KVCACHE_SPACE=10 
-  export VLLM_CPU_OMP_THREADS_BIND=48-92 
-  python3 -m vllm.entrypoints.openai.api_server --model facebook/opt-125m & 
-  timeout 600 bash -c 'until curl localhost:8000/v1/models; do sleep 1; done' || exit 1
-  python3 benchmarks/benchmark_serving.py \
-    --backend vllm \
-    --dataset-name random \
-    --model facebook/opt-125m \
-    --num-prompts 20 \
-    --endpoint /v1/completions \
-    --tokenizer facebook/opt-125m"
+    # online inference
+    docker exec cpu-test bash -c "
+        export VLLM_CPU_KVCACHE_SPACE=10 
+        export VLLM_CPU_OMP_THREADS_BIND=48-92 
+        python3 -m vllm.entrypoints.openai.api_server --model facebook/opt-125m & 
+        timeout 600 bash -c 'until curl localhost:8000/v1/models; do sleep 1; done' || exit 1
+        python3 benchmarks/benchmark_serving.py \
+            --backend vllm \
+            --dataset-name random \
+            --model facebook/opt-125m \
+            --num-prompts 20 \
+            --endpoint /v1/completions \
+            --tokenizer facebook/opt-125m"
+}
+
+# All of CPU tests are expected to be finished less than 20 mins.
+export -f cpu_tests
+timeout 20m bash -c "cpu_tests"