diff --git a/docs/zh_CN/FAQ/faq_2020_s1.md b/docs/zh_CN/FAQ/faq_2020_s1.md
index 6342cb2058..b17424f446 100644
--- a/docs/zh_CN/FAQ/faq_2020_s1.md
+++ b/docs/zh_CN/FAQ/faq_2020_s1.md
@@ -276,7 +276,7 @@ Cosine_decay 和 piecewise_decay 的学习率变化曲线如下图所示，容
 
 **A**:一般来说，数据集的规模对性能影响至关重要，但是图片的标注往往比较昂贵，所以有标注的图片数量往往比较稀少，在这种情况下，数据的增广尤为重要。在训练 ImageNet-1k 的标准数据增广中，主要使用了 Random_Crop 与 Random_Flip 两种数据增广方式，然而，近些年，越来越多的数据增广方式被提出，如 cutout、mixup、cutmix、AutoAugment 等。实验表明，这些数据的增广方式可以有效提升模型的精度。具体到数据集来说：
 
-- ImageNet-1k：下表列出了 ResNet50 在 8 种不同的数据增广方式的表现，可以看出，相比 baseline，所有的数据增广方式均有收益，其中 cutmix 是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../training/config_discription/data_augmentation.md)。
+- ImageNet-1k：下表列出了 ResNet50 在 8 种不同的数据增广方式的表现，可以看出，相比 baseline，所有的数据增广方式均有收益，其中 cutmix 是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../training/config_description/data_augmentation.md)。
 
 | 模型       | 数据增广方式         | Test top-1 |
 |:--:|:--:|:--:|
diff --git a/docs/zh_CN/algorithm_introduction/data_augmentation.md b/docs/zh_CN/algorithm_introduction/data_augmentation.md
index f54fd08acf..2ac3d7e6a4 100644
--- a/docs/zh_CN/algorithm_introduction/data_augmentation.md
+++ b/docs/zh_CN/algorithm_introduction/data_augmentation.md
@@ -240,7 +240,7 @@ Mixup 是最先提出的图像混叠增广方案，其原理简单、方便实
 
 ![][test_cutmix]
 
-关于数据增强相关的实战部分实参考[数据增强实战](../training/config_discription/data_augmentation.md)。
+关于数据增强相关的实战部分实参考[数据增强实战](../training/config_description/data_augmentation.md)。
 
 
 ## 参考文献
diff --git a/docs/zh_CN/deployment/PP-ShiTu/shitu_deploy.md b/docs/zh_CN/deployment/PP-ShiTu/shitu_deploy.md
index 0042d3828b..f936bb228a 100644
--- a/docs/zh_CN/deployment/PP-ShiTu/shitu_deploy.md
+++ b/docs/zh_CN/deployment/PP-ShiTu/shitu_deploy.md
@@ -79,7 +79,7 @@
 
 因为要对模型进行训练，所以收集自己的数据集。数据准备及相应格式请参考：[特征提取文档](../../training/PP-ShiTu/feature_extraction.md)中 `4.1数据准备`部分、[识别数据集说明](../../training/metric_learning/dataset.md)。值得注意的是，此部分需要准备大量的数据，以保证识别模型效果。训练配置文件参考：[通用识别模型配置文件](../../../../ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml)，训练方法参考：[识别模型训练](../../training/metric_learning/training.md)
 
-- 数据增强：根据实际情况选择不同数据增强方法。如：实际应用中数据遮挡比较严重，建议添加`RandomErasing`增强方法。详见[数据增强文档](../../training/config_discription/data_augmentation.md)
+- 数据增强：根据实际情况选择不同数据增强方法。如：实际应用中数据遮挡比较严重，建议添加`RandomErasing`增强方法。详见[数据增强文档](../../training/config_description/data_augmentation.md)
 - 换不同的`backbone`，一般来说，越大的模型，特征提取能力更强。不同`backbone`详见[模型介绍](../../models/ImageNet1k/model_list.md)
 - 选择不同的`Metric Learning`方法。不同的`Metric Learning`方法，对不同的数据集效果可能不太一样，建议尝试其他`Loss`,详见[Metric Learning](../../algorithm_introduction/metric_learning.md)
 - 采用蒸馏方法，对小模型进行模型能力提升，详见[模型蒸馏](../../algorithm_introduction/knowledge_distillation.md)
diff --git a/docs/zh_CN/deployment/PP-ShiTu/vector_search.md b/docs/zh_CN/deployment/PP-ShiTu/vector_search.md
index 01c4ad7b5e..dc462c246b 100644
--- a/docs/zh_CN/deployment/PP-ShiTu/vector_search.md
+++ b/docs/zh_CN/deployment/PP-ShiTu/vector_search.md
@@ -46,7 +46,7 @@
 
 此方法为图索引方法，如下图所示，在建立索引的时候，分为不同的层，所以检索精度较高，速度较快，但是特征库只支持添加图像功能，不支持删除图像特征功能。基于图的向量检索算法在向量检索的评测中性能都是比较优异的。如果比较在乎检索算法的效率，而且可以容忍一定的空间成本，多数场景下比较推荐基于图的检索算法。而HNSW是一种典型的，应用广泛的图算法，很多分布式检索引擎都对HNSW算法进行了分布式改造，以应用于高并发，大数据量的线上查询。此方法为默认方法。
 <div align="center">
-<img src="../../images/algorithm_introduction/hnsw.png"  width = "400" />
+<img src="../../../images/algorithm_introduction/hnsw.png"  width = "400" />
 </div>
 
 <a name="2.2"></a>
diff --git a/docs/zh_CN/models/PP-ShiTu/README.md b/docs/zh_CN/models/PP-ShiTu/README.md
index d98f1c05f7..f55f05a95e 100644
--- a/docs/zh_CN/models/PP-ShiTu/README.md
+++ b/docs/zh_CN/models/PP-ShiTu/README.md
@@ -31,7 +31,7 @@ PP-ShiTuV2 是基于 PP-ShiTuV1 改进的一个实用轻量级通用图像识别
 **本文档提供了用户使用 PaddleClas 的 PP-ShiTuV2 图像识别方案进行快速构建轻量级、高精度、可落地的图像识别pipeline。该pipeline可以广泛应用于商场商品识别场景、安防人脸或行人识别场景、海量图像检索过滤等场景中。**
 
 <div align="center">
-<img src="../../images/structure.jpg" />
+<img src="../../../images/structure.jpg" />
 </div>
 
 下表列出了 PP-ShiTuV2 用不同的模型结构与训练策略所得到的相关指标，
diff --git a/docs/zh_CN/models/PULC/PULC_person_attribute.md b/docs/zh_CN/models/PULC/PULC_person_attribute.md
index 910fb8879f..604c6e2fb5 100644
--- a/docs/zh_CN/models/PULC/PULC_person_attribute.md
+++ b/docs/zh_CN/models/PULC/PULC_person_attribute.md
@@ -159,7 +159,7 @@ print(next(result))
 部分数据可视化如下所示。
 
 <div align="center">
-<img src="../../images/PULC/docs/person_attribute_data_demo.png"  width = "500" />
+<img src="../../../images/PULC/docs/person_attribute_data_demo.png"  width = "500" />
 </div>
 
 
diff --git a/docs/zh_CN/models/PULC/PULC_traffic_sign.md b/docs/zh_CN/models/PULC/PULC_traffic_sign.md
index 5a838b1322..38bd89b182 100644
--- a/docs/zh_CN/models/PULC/PULC_traffic_sign.md
+++ b/docs/zh_CN/models/PULC/PULC_traffic_sign.md
@@ -180,7 +180,7 @@ def get_random_crop_box(xmin, ymin, xmax, ymax, img_height, img_width, ratio=1.0
 处理后的数据集部分数据可视化如下。
 
 <div align="center">
-<img src="../../images/PULC/docs/traffic_sign_data_demo.png"  width = "500" />
+<img src="../../../images/PULC/docs/traffic_sign_data_demo.png"  width = "500" />
 </div>
 
 
diff --git a/docs/zh_CN/models/PULC/PULC_vehicle_attribute.md b/docs/zh_CN/models/PULC/PULC_vehicle_attribute.md
index b0c17243e0..13883a573c 100644
--- a/docs/zh_CN/models/PULC/PULC_vehicle_attribute.md
+++ b/docs/zh_CN/models/PULC/PULC_vehicle_attribute.md
@@ -160,7 +160,7 @@ print(next(result))
 部分数据可视化如下所示。
 
 <div align="center">
-<img src="../../images/PULC/docs/vehicle_attribute_data_demo.png"  width = "500" />
+<img src="../../../images/PULC/docs/vehicle_attribute_data_demo.png"  width = "500" />
 </div>
 
 首先从[VeRi数据集官网](https://www.v7labs.com/open-datasets/veri-dataset)中申请并下载数据，放在PaddleClas的`dataset`目录下，数据集目录名为`VeRi`，使用下面的命令进入该文件夹。
diff --git a/docs/zh_CN/training/PULC.md b/docs/zh_CN/training/PULC.md
index 52ab17590b..4e44cc78a2 100644
--- a/docs/zh_CN/training/PULC.md
+++ b/docs/zh_CN/training/PULC.md
@@ -159,7 +159,7 @@ SSLD 是百度自研的半监督蒸馏算法，在 ImageNet 数据集上，模
 
 #### 3.3 EDA数据增强策略
 
-数据增强是视觉算法中常用的优化策略，可以对模型精度有明显提升。除了传统的 RandomCrop，RandomFlip 等方法之外，我们还应用了 RandomAugment 和 RandomErasing。您可以在[数据增强介绍](config_discription/data_augmentation.md)找到详细介绍。
+数据增强是视觉算法中常用的优化策略，可以对模型精度有明显提升。除了传统的 RandomCrop，RandomFlip 等方法之外，我们还应用了 RandomAugment 和 RandomErasing。您可以在[数据增强介绍](config_description/data_augmentation.md)找到详细介绍。
 由于这两种数据增强对图片的修改较大，使分类任务变难，在一些小数据集上可能会导致模型欠拟合，我们将提前设置好这两种方法启用的概率。
 基于以上改进，我们训练得到模型精度为 93.43%，提升 1.3%。
 
diff --git a/docs/zh_CN/training/advanced/prune_quantization.md b/docs/zh_CN/training/advanced/prune_quantization.md
index 103b1c60be..6d2fae5d0e 100644
--- a/docs/zh_CN/training/advanced/prune_quantization.md
+++ b/docs/zh_CN/training/advanced/prune_quantization.md
@@ -92,7 +92,7 @@ cd PaddleClas
 python3.7 tools/train.py -c ppcls/configs/slim/ResNet50_vd_quantization.yaml -o Global.device=cpu
 ```
 
-其中 `yaml` 文件解析详见[参考文档](../config_discription/basic.md)。为了保证精度，`yaml` 文件中已经使用 `pretrained model`.
+其中 `yaml` 文件解析详见[参考文档](../config_description/basic.md)。为了保证精度，`yaml` 文件中已经使用 `pretrained model`.
 
 
 * 单机多卡/多机多卡启动
diff --git a/docs/zh_CN/training/metric_learning/training.md b/docs/zh_CN/training/metric_learning/training.md
index 07c86e1af8..4cba5b9433 100644
--- a/docs/zh_CN/training/metric_learning/training.md
+++ b/docs/zh_CN/training/metric_learning/training.md
@@ -12,7 +12,7 @@
 
 完整的图像识别系统，如下图所示
 
-<img src="../../images/structure.png"/>
+<img src="../../../images/structure.jpg"/>
 
 在Android端或PC端体验整体图像识别系统，或查看特征库建立方法，可以参考 [图像识别快速开始文档](../../quick_start/quick_start_recognition.md)。
 
@@ -163,7 +163,7 @@ python3.7 -m paddle.distributed.launch tools/train.py \
 
 **注**：其中，`-c` 用于指定配置文件的路径，`-o` 用于指定需要修改或者添加的参数，其中 `-o Arch.Backbone.pretrained=True` 表示 Backbone 在训练开始前会加载预训练模型；`-o Arch.Backbone.pretrained` 也可以指定为模型权重文件的路径，使用时换成自己的预训练模型权重文件的路径即可；`-o Global.device=gpu` 表示使用 GPU 进行训练。如果希望使用 CPU 进行训练，则设置 `-o Global.device=cpu`即可。
 
-更详细的训练配置，也可以直接修改模型对应的配置文件。具体配置参数参考[配置文档](../config_discription/basic.md)。
+更详细的训练配置，也可以直接修改模型对应的配置文件。具体配置参数参考[配置文档](../config_description/basic.md)。
 
 运行上述训练命令，可以看到输出日志，示例如下：
 
diff --git a/docs/zh_CN/training/single_label_classification/training.md b/docs/zh_CN/training/single_label_classification/training.md
index 94975bdcd2..a24886af3f 100644
--- a/docs/zh_CN/training/single_label_classification/training.md
+++ b/docs/zh_CN/training/single_label_classification/training.md
@@ -67,7 +67,7 @@ CIFAR-10 数据集由 10 个类的 60000 个彩色图像组成，图像分辨率
 
 在准备好数据、模型后，便可以开始迭代模型并更新模型的参数。经过多次迭代最终可以得到训练好的模型来做图像分类任务。图像分类的训练过程需要很多经验，涉及很多超参数的设置，PaddleClas 提供了一些列的[训练调优方法](training_strategy.md)，可以快速助你获得高精度的模型。
 
-同时，PaddleClas 还支持使用VisualDL 可视化训练过程。VisualDL 是飞桨可视化分析工具，以丰富的图表呈现训练参数变化趋势、模型结构、数据样本、高维数据分布等。可帮助用户更清晰直观地理解深度学习模型训练过程及模型结构，进而实现高效的模型优化。更多细节请查看[VisualDL](../config_discription/VisualDL.md)。
+同时，PaddleClas 还支持使用VisualDL 可视化训练过程。VisualDL 是飞桨可视化分析工具，以丰富的图表呈现训练参数变化趋势、模型结构、数据样本、高维数据分布等。可帮助用户更清晰直观地理解深度学习模型训练过程及模型结构，进而实现高效的模型优化。更多细节请查看[VisualDL](../config_description/VisualDL.md)。
 
 <a name="2.4"></a>
 ### 2.4 模型评估
@@ -109,7 +109,7 @@ python3 tools/train.py \
 
 其中，`-c` 用于指定配置文件的路径，`-o` 用于指定需要修改或者添加的参数，其中 `-o Arch.pretrained=False` 表示不使用预训练模型，`-o Global.device=gpu` 表示使用 GPU 进行训练。如果希望使用 CPU 进行训练，则需要将 `Global.device` 设置为 `cpu`。
 
-更详细的训练配置，也可以直接修改模型对应的配置文件。具体配置参数参考[配置文档](../config_discription/basic.md)。
+更详细的训练配置，也可以直接修改模型对应的配置文件。具体配置参数参考[配置文档](../config_description/basic.md)。
 
 运行上述命令，可以看到输出日志，示例如下：
 
@@ -132,7 +132,7 @@ python3 tools/train.py \
     ...
     ```
 
-训练期间也可以通过 VisualDL 实时观察 loss 变化，详见 [VisualDL](../config_discription/VisualDL.md)。
+训练期间也可以通过 VisualDL 实时观察 loss 变化，详见 [VisualDL](../config_description/VisualDL.md)。
 
 <a name="3.1.2"></a>
 #### 3.1.2 模型微调