Skip to content

Commit 3a87280

Browse files
committed
update
1 parent 2e16557 commit 3a87280

File tree

1 file changed

+4
-5
lines changed

1 file changed

+4
-5
lines changed

source/_posts/article/cute_arch_summary.md

Lines changed: 4 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -13,10 +13,9 @@ abbrlink: cute-arch-summary
1313
description: CUDA各代Tensor Core(SM架构)对应CUTLASS Cute支持的MMA指令、尺寸和精度对照表,帮助开发者理解GPU架构演进与精度特性。
1414
---
1515

16+
[TOC]
1617

17-
# CUTLASS Cute Arch 架构、指令、精度总结表
18-
19-
## 矩阵乘法加速器 (MMA) 架构、指令、精度对照表
18+
## 1 矩阵乘法加速器 (MMA) 架构、指令、精度对照表
2019

2120
| 架构 | 代号 | 指令类型 | MMA尺寸 | 输入精度A×B | 累加精度C | 输出精度D | 布局 | 特殊功能 |
2221
|------|------|----------|---------|-------------|-----------|-----------|------|----------|
@@ -67,7 +66,7 @@ description: CUDA各代Tensor Core(SM架构)对应CUTLASS Cute支持的MMA
6766
- **E4M3/E5M2**:FP8格式 (4位指数+3位尾数 / 5位指数+2位尾数)
6867
- **E2M1/E3M2/E2M3**:FP6/FP4格式
6968

70-
## 内存拷贝操作 (Copy) 架构、指令、精度对照表
69+
## 2 内存拷贝操作 (Copy) 架构、指令、精度对照表
7170

7271
| 架构 | 代号 | 指令类型 | 操作类型 | 数据类型 | 缓存级别 | 特殊功能 |
7372
|------|------|----------|----------|----------|----------|----------|
@@ -89,7 +88,7 @@ description: CUDA各代Tensor Core(SM架构)对应CUTLASS Cute支持的MMA
8988
- **TMA**:Tensor Memory Accelerator (张量内存加速器)
9089
- **MOVM**:Move Matrix (矩阵数据移动和转置)
9190

92-
## 完整精度支持汇总
91+
## 3 完整精度支持汇总
9392

9493
### 支持的数值类型
9594
1. **浮点精度**:F16, BF16, TF32, F32, F64

0 commit comments

Comments
 (0)