本仓库包含了《The UltraScale Playbook》的中文翻译版本,并附带额外的解释说明和注解。本项目旨在让这份宝贵的资源能够被中文读者更好地理解和使用。
UltraScale Playbook 是一本关于规模化和增长的综合指南。本中文翻译项目包括:
- 原始内容的完整翻译
- 补充解释说明和上下文
- 针对中文读者的相关示例
- 技术术语解释
The UltraScale Playbook-Part1.md
:第一部分的主要内容及中文翻译The UltraScale Playbook-Part2.md
:第二部分 GPU 集群训练相关内容及中文翻译The UltraScale Playbook-Part3.md
:第三部分内容及中文翻译The UltraScale Playbook-Part4.md
:第四部分内容及中文翻译The UltraScale Playbook-Part5.md
:第五部分并行编程速成内容及中文翻译
第一部分主要介绍在GPU集群上训练大模型的基础概念和并行化策略:
- 在单个GPU上训练Transformer的内存使用情况
- 分析内存使用 Profiling
- 数据并行 Data Parallelism
- 张量并行 Tensor Parallel
- Transformer 块中的张量并行
- 详细分析了大模型训练中的内存使用情况
- 介绍了梯度累积和混合精度训练等基础优化技术
- 深入讲解了数据并行(DP)的实现和优化
- 详细解释了张量并行(TP)的原理和实现方法
- 分析了Transformer架构中各个组件的并行化策略
第二部分主要介绍了在 GPU 集群上进行大规模模型训练的各种并行策略:
- Sequence Parallel (序列并行):针对序列维度的并行处理方法
- Context Parallel (上下文并行):实现上下文信息的并行计算
- Ring Attention (环状注意力机制):优化注意力计算的特殊实现
- Zig-zag Ring Attention:平衡版本的环状注意力实现
- Pipeline Parallel (流水线并行):实现跨节点的流水线并行
- AFAB (Alternating Forward And Backward):在不同节点上交替进行前向和反向计算
- Zero Bubble & Dual Pipe:优化流水线并行的策略
- Expert Parallel (专家并行):针对专家模型的并行策略
- 5D Parallelism (5D并行):综合性的并行训练方案
第五部分主要介绍了并行编程的基础知识和实践:
- 集合操作(Collective Operation):包括广播、全局归约、分发等基本操作
- NCCL(NVIDIA Collective Communications Library):NVIDIA的集合通信库详解
- 性能分析与优化:使用PyTorch Profiler和NVIDIA Nsight Compute进行性能分析
- 并行训练的数学模型:详细分析了通信开销和计算比率
- 在遵循中文语言习惯的同时保持原意
- 针对文化或商业差异提供额外的背景说明
- 为复杂概念提供解释说明
- 在确保可读性的同时保持技术准确性
如果您发现任何问题或有改进建议,欢迎:
- 提交 issue
- 提出修正建议
- 贡献补充说明内容
请注意,虽然本翻译项目用于教育目的,但《The UltraScale Playbook》的原始内容仍保留其原有版权。本翻译项目旨在作为中文读者的补充学习资源。
@misc{ultrascale_playbook,
title={The Ultra-Scale Playbook: Training LLMs on GPU Clusters},
author={Nouamane Tazi, Ferdinand Mom, Haojun Zhao, Phuc Nguyen, Mohamed Mekkouri, Leandro Werra, Thomas Wolf},
year={2025},
}
本项目支持将 Markdown 文件转换为精美的 PDF 书籍。
- 安装 Pandoc:
brew install pandoc
- 安装 LaTeX(选择以下之一):
# 基础版本(推荐)
brew install --cask basictex
# 或完整版本
brew install --cask mactex
运行以下命令生成 PDF:
pandoc metadata.yaml cover.md \
"The UltraScale Playbook-Part1.md" \
"The UltraScale Playbook-Part2.md" \
"The UltraScale Playbook-Part3.md" \
"The UltraScale Playbook-Part4.md" \
"The UltraScale Playbook-Part5.md" \
-o ultrascale-playbook.pdf \
--pdf-engine=xelatex \
--top-level-division=chapter
更多详细说明请参考: