ADD more info for mixed precision training

karminski · Jan 26, 2025 · 1bbcba3 · 1bbcba3
1 parent d62ca40
commit 1bbcba3
Showing 1 changed file with 2 additions and 2 deletions.
diff --git a/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md b/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md
@@ -5,7 +5,7 @@ by @karminski-牙医
 
 ![](./assets/images/mixed-precision-training.png)
 
-目前使用采用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节.
+目前使用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节.
 
 ### **注意力机制优化**
 
@@ -74,7 +74,7 @@ by @karminski-牙医
 
 - **混合精度训练**
   - FP16/BF16 混合精度训练广泛应用于大模型训练
-  - FP8 目前主要用于推理阶段（如 NVIDIA H100）
+  - FP8 目前主要用于推理阶段（如 NVIDIA H100）, 但 DeepSeek-V3 使用了 FP8 训练, 带来了巨大的成本优势
   - 大多数现代大模型使用 BF16 训练
 
 - **梯度检查点**