NVIDIA
diff --git a/‎docs/source/blogs/media/tech_blog11_dynasor_demo.gif‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_demo.gif‎ b/‎docs/source/blogs/media/tech_blog11_dynasor_demo.gif‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_demo.gif‎
diff --git a/‎docs/source/blogs/media/tech_blog11_dynasor_hesitation.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_hesitation.png‎ b/‎docs/source/blogs/media/tech_blog11_dynasor_hesitation.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_hesitation.png‎
diff --git a/‎docs/source/blogs/media/tech_blog11_dynasor_illustration.jpg‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_illustration.jpg‎ b/‎docs/source/blogs/media/tech_blog11_dynasor_illustration.jpg‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_illustration.jpg‎
diff --git a/‎docs/source/blogs/media/tech_blog11_dynasor_pressure_testing.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_pressure_testing.png‎ b/‎docs/source/blogs/media/tech_blog11_dynasor_pressure_testing.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_dynasor_pressure_testing.png‎
diff --git a/‎docs/source/blogs/media/scaffolding_sequence.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_scaffolding_sequence.png‎ b/‎docs/source/blogs/media/scaffolding_sequence.png‎ renamed to ‎docs/source/blogs/media/tech_blog12_scaffolding_sequence.png‎
diff --git a/‎docs/source/blogs/tech_blog/blog11_Inference_Time_Compute_Implementation_in_TensorRT-LLM.md‎ renamed to ‎docs/source/blogs/tech_blog/blog12_Inference_Time_Compute_Implementation_in_TensorRT-LLM.md‎
Lines changed: 5 additions & 5 deletions b/‎docs/source/blogs/tech_blog/blog11_Inference_Time_Compute_Implementation_in_TensorRT-LLM.md‎ renamed to ‎docs/source/blogs/tech_blog/blog12_Inference_Time_Compute_Implementation_in_TensorRT-LLM.md‎
Lines changed: 5 additions & 5 deletions
@@ -55,7 +55,7 @@ Provides sufficient concurrency to achieve good performance while ease of use. C
 
 This is the call sequence diagram of `Scaffolding`:
 <div align="center">
-    <img src="../media/scaffolding_sequence.png" alt="Scaffolding Sequence" width="900px">
+    <img src="../media/tech_blog12_scaffolding_sequence.png" alt="Scaffolding Sequence" width="900px">
 </div>
 <p align="center"><sub><em>Figure 1. Scaffolding Sequence</em></sub></p>
 
@@ -186,7 +186,7 @@ Let's make a summary of the overall implementation of `Scaffolding`. If users wa
 Dynasor-CoT is a certainty-based, training-free approach to accelerate Chain-of-Thought (CoT) inference. This chapter discusses how inference-time compute methods can be smoothly integrated into the TRT-LLM Scaffolding framework, using Dynasor-CoT as an example.
 
 <div align="center">
-    <img src="../media/tech_blog11_dynasor_demo.gif" alt="Dynasor Demo" width="900px">
+    <img src="../media/tech_blog12_dynasor_demo.gif" alt="Dynasor Demo" width="900px">
 </div>
 <p align="center"><sub><em>Figure 2. Demo of DeepSeek-R1-Distill-Qwen-7B achieving a 5.74x speedup compared to the baseline when using Dynasor-CoT on MATH500</em></sub></p>
 
@@ -197,7 +197,7 @@ LLM reasoning is highly token-inefficient, often requiring far more tokens to ac
 For instance, Figure 2 compares a traditional Qwen-7B model with a reasoning-focused, Deepseek-distilled Qwen-7B model on a simple question. While the traditional model reaches its answer in 180 tokens, the reasoning model expends 1,000 tokens on iterative verification, despite having already found the correct answer at token 340. This represents a significant waste of tokens for diminishing returns on accuracy.
 
 <div align="center">
-    <img src="../media/tech_blog11_dynasor_hesitation.png" alt="Motivation" width="900px">
+    <img src="../media/tech_blog12_dynasor_hesitation.png" alt="Motivation" width="900px">
 </div>
 <p align="center"><sub><em>Figure 2. An example answer from reasoning model (Deepseek-distilled Qwen-2.5 7B) vs traditional model (Qwen-2.5 7B) on one of the problem in MATH500 dataset.</em></sub></p>
 
@@ -208,7 +208,7 @@ More specifically, a probe is an extra generation request with an eliciting prom
 
 
 <div align="center">
-    <img src="../media/tech_blog11_dynasor_pressure_testing.png" alt="Dynasor Demo" width="900px">
+    <img src="../media/tech_blog12_dynasor_pressure_testing.png" alt="Dynasor Demo" width="900px">
 </div>
 <p align="center"><sub><em>Figure 3. DeepSeek-R1's performance on AMC23 and AIME24 at varying token budgets. (Left) Standard reasoning with late answer outputs. (Right) Early answer extraction using the Probe-In-The-Middle technique, demonstrating equivalent accuracy with a 50% token reduction. The greener regions in the right panels suggest the model knows the answers much earlier than it reveals in standard reasoning.</em></sub></p>
 
@@ -224,7 +224,7 @@ Figure 4 provides an illustration:
 * **Case 3**: The model generates special tokens like "wait" or "hmm," which also indicate hesitation, so we continue the generation.
 
 <div align="center">
-    <img src="../media/tech_blog11_dynasor_illustration.jpg" alt="Dynasor Illustration" width="900px">
+    <img src="../media/tech_blog12_dynasor_illustration.jpg" alt="Dynasor Illustration" width="900px">
 </div>
 <p align="center"><sub><em>Figure 4. Illustration of Dynasor-CoT. Case 1: early exit due to consistent early-stage results. Case 2: continue generation due to inconsistent early-stage results. Case 3: responses containing hesitation words (e.g., wait) are disgarded.</em></sub></p>