Skip to content

pprp/ultrascale-playbook-zh

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

UltraScale Playbook 中文翻译项目

本仓库包含了《The UltraScale Playbook》的中文翻译版本,并附带额外的解释说明和注解。本项目旨在让这份宝贵的资源能够被中文读者更好地理解和使用。

img

项目概述

UltraScale Playbook 是一本关于规模化和增长的综合指南。本中文翻译项目包括:

  • 原始内容的完整翻译
  • 补充解释说明和上下文
  • 针对中文读者的相关示例
  • 技术术语解释

仓库结构

  • The UltraScale Playbook-Part1.md:第一部分的主要内容及中文翻译
  • The UltraScale Playbook-Part2.md:第二部分 GPU 集群训练相关内容及中文翻译
  • The UltraScale Playbook-Part3.md:第三部分内容及中文翻译
  • The UltraScale Playbook-Part4.md:第四部分内容及中文翻译
  • The UltraScale Playbook-Part5.md:第五部分并行编程速成内容及中文翻译

CheatSheet

内容概览

Part 1

第一部分主要介绍在GPU集群上训练大模型的基础概念和并行化策略:

高级概览

  • 在单个GPU上训练Transformer的内存使用情况
  • 分析内存使用 Profiling
  • 数据并行 Data Parallelism
  • 张量并行 Tensor Parallel
  • Transformer 块中的张量并行

主要内容

  • 详细分析了大模型训练中的内存使用情况
  • 介绍了梯度累积和混合精度训练等基础优化技术
  • 深入讲解了数据并行(DP)的实现和优化
  • 详细解释了张量并行(TP)的原理和实现方法
  • 分析了Transformer架构中各个组件的并行化策略

Part 2: GPU 集群训练指南

第二部分主要介绍了在 GPU 集群上进行大规模模型训练的各种并行策略:

  • Sequence Parallel (序列并行):针对序列维度的并行处理方法
  • Context Parallel (上下文并行):实现上下文信息的并行计算
  • Ring Attention (环状注意力机制):优化注意力计算的特殊实现
  • Zig-zag Ring Attention:平衡版本的环状注意力实现
  • Pipeline Parallel (流水线并行):实现跨节点的流水线并行
  • AFAB (Alternating Forward And Backward):在不同节点上交替进行前向和反向计算
  • Zero Bubble & Dual Pipe:优化流水线并行的策略
  • Expert Parallel (专家并行):针对专家模型的并行策略
  • 5D Parallelism (5D并行):综合性的并行训练方案

Part 5: 并行编程速成

第五部分主要介绍了并行编程的基础知识和实践:

  • 集合操作(Collective Operation):包括广播、全局归约、分发等基本操作
  • NCCL(NVIDIA Collective Communications Library):NVIDIA的集合通信库详解
  • 性能分析与优化:使用PyTorch Profiler和NVIDIA Nsight Compute进行性能分析
  • 并行训练的数学模型:详细分析了通信开销和计算比率

翻译原则

  1. 在遵循中文语言习惯的同时保持原意
  2. 针对文化或商业差异提供额外的背景说明
  3. 为复杂概念提供解释说明
  4. 在确保可读性的同时保持技术准确性

参与贡献

如果您发现任何问题或有改进建议,欢迎:

  • 提交 issue
  • 提出修正建议
  • 贡献补充说明内容

版权说明

请注意,虽然本翻译项目用于教育目的,但《The UltraScale Playbook》的原始内容仍保留其原有版权。本翻译项目旨在作为中文读者的补充学习资源。

引用


@misc{ultrascale_playbook,

      title={The Ultra-Scale Playbook: Training LLMs on GPU Clusters},

      author={Nouamane Tazi, Ferdinand Mom, Haojun Zhao, Phuc Nguyen, Mohamed Mekkouri, Leandro Werra, Thomas Wolf},

      year={2025},

}

生成 PDF

本项目支持将 Markdown 文件转换为精美的 PDF 书籍。

环境准备

  1. 安装 Pandoc:
brew install pandoc
  1. 安装 LaTeX(选择以下之一):
# 基础版本(推荐)
brew install --cask basictex

# 或完整版本
brew install --cask mactex

生成 PDF

运行以下命令生成 PDF:

pandoc metadata.yaml cover.md \
  "The UltraScale Playbook-Part1.md" \
  "The UltraScale Playbook-Part2.md" \
  "The UltraScale Playbook-Part3.md" \
  "The UltraScale Playbook-Part4.md" \
  "The UltraScale Playbook-Part5.md" \
  -o ultrascale-playbook.pdf \
  --pdf-engine=xelatex \
  --top-level-division=chapter

更多详细说明请参考: