Add faster transformer for decoding #37

FrostML · 2021-02-25T05:51:07Z

Add faster transformer for decoding.

The performance is as follow（V100）:

PaddlePaddle dygraph without Faster Transformer: 257s
PaddlePaddle dygraph with Faster Transformer:
- FP32: 25.18s
- FP16: 13.38s

以上测试结果基于：

Paddle 2.0 重构后的动态图预测和使用 Faster Transformer 的动态图预测比较
- 不过，Paddle 2.0 重构后的动态图预测，因组网上需要支持动静统一，在预测部分，动态图原生组网调整之后，性能上有所下降，可能不能代表之前的模型和 Faster Transformer 的比较
测试样本：
- 生成的长度会显著影响性能测试的结果，故固定采用 3003 条英德翻译句子，统计总计耗时，max output length 设定为 256
- 生成任务上，不同的 batch size 对 QPS 有很大影响，batch size 较大可能有更高 QPS，故固定 batch size = 64 测试
标准的 transformer 结构，具体模型组网可以参考 modeling.py
base 模型，具体的参数信息可以参考 transformer.base.yaml
- d_model: 512
- inner hidden dims: 2048
- num of head: 8
- num of layer: 6
- beam size: 5
测试机器：
- GPU: V100
- CPU: Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
实际性能以实际测试为准

…nto faster-transformer

guoshengCS · 2021-03-02T07:08:39Z

paddlenlp/ext_op/README.md

+.
+├── sample/                 # 基于 Transformer 机器翻译使用样例（beam search）
+├── src/                    # 自定义 OP C++ CUDA 代码
+└── transformer/            # Python API 封装脚本


sample入口感觉最好是在example里的Transformer下，体现example的训练代码是能和预测优化打通的，是配套的，这个是我们希望突出的内容，另外也能和example去复用reader、config等代码。比如能否在example里的Transformer下加一个类似faster infer的目录来存放sample

我理解可以在 example 下再加一个。不过我觉得当前的路径不用删除。
sample 这里不只是预测的脚本，还有比如 decoding_sample.py 这样的脚本用于验证 decoding 的性能（参考 Faster Transformer 的 repo）。另外，执行前需要执行 decoding_gemm，这个一般在 build 路径下，目前推荐的是在 ext_op 下编译，那么如上的 decoding_sample.py 这样的脚本放在 example 下就需要 ../../../../paddlenlp/ext_op/build/third_party/... 这样执行，太长了。
可以在 example 下面加一个预测走通的流程，保证 reader configs 部分的代码不会重复，不过编译的 lib 还是在 ext_op/build/lib 下面。指定 lib 路径的时候也会比较复杂。

经讨论：
已经将 sample 里面验证测试脚本换成以随机生成模型进行功能验证，另在 example 下面新增 faster_transformer 并新增相应的脚本、文档说明使用 Faster Transformer 进行预测。

guoshengCS · 2021-03-03T09:52:29Z

paddlenlp/ext_op/sample/encoder_decoding_sample.py

+        d_model=args.d_model,
+        pad_idx=args.bos_idx,
+        weight_sharing=args.weight_sharing,
+        use_fp16_decoding=args.use_fp16_decoding)


这个函数作为FasterTransformer的一个方法封装吧，也是和FasterTransformer配套的，能直接使用其中的参数和配置，这个接口能简单些。

Done. Thanks.

guoshengCS · 2021-03-03T09:57:33Z

paddlenlp/ext_op/src/fusion_decoding_op.cu

+    decoding_params.stream = stream;
+    int device_id;
+    cudaGetDevice(&device_id);
+    fastertransformer::Allocator<AllocatorType::CUDA> allocator_(device_id);


这里还是应该封装一个paddle原生的allocator在这里使用，直接使用CUDA的原生allocator应该会使用paddle allocator预分配以外的显存，之前batch_size超过32爆显存应该是这个问题。

如果fastertransformer::Allocator<AllocatorType::Paddle>实在是需要修改fastertransformer中的allocator.h文件的话，还是尽量通过CMAKE来完成这一过程吧

具体的实现方式可以如下：
将 Faster Transformer 修改，使之依赖于 paddle 进行编译，完成后再编译自定义 op，使自定义 op 依赖于 Faster Transformer。
修改 Faster Transformer 方式，目前可以采用先编辑好相关代码，在编译时，替换掉 CMakeLists.txt 以及 allocator.h，进行编译。
以上方案目前没有参考，不确定编译是否容易解决，且目前已有雏形已经可以正常预测。经讨论，将会在后面的 PR 进行升级尝试。

guoshengCS

也请 @ZeyuChen 看看整个代码组织是否合适

guoshengCS · 2021-03-03T17:09:54Z

examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py

+    transformer = FasterTransformer.load_dygraph_ckpt(
+        transformer,
+        init_from_params=args.init_from_params,
+        trg_vocab_size=args.trg_vocab_size,


这里load_dygraph_ckpt不要用staticmethod，直接transformer.load(args.init_from_params)就可以了

Done. Thanks.

guoshengCS · 2021-03-03T17:17:51Z

paddlenlp/ext_op/src/fusion_decoding_op.h

+public:
+  void Compute(const framework::ExecutionContext& ctx) const override {
+    PADDLE_THROW("CPU is not support for this kernel now. Please use GPU. ");
+  }


这个是CPU的NotImpleKernel是必要的吗，如果不是必要的话就去掉吧

必要吧，CPU 是 OP 的默认 kernel，如果没有编译会挂。

guoshengCS · 2021-03-03T17:36:53Z

examples/machine_translation/transformer/faster_transformer/README.md

@@ -0,0 +1,132 @@
+# Faster Transformer 预测
+
+


先简单概述下这个做了什么，如通过自定义OP的方式集成了NV的Faster Transformer，只包含使用beam search 的decoding部分，打通训练和预测加速

Done. Thanks.

guoshengCS · 2021-03-04T02:32:54Z

paddlenlp/ext_op/README.md

+
+翻译结果会输出到 `output_file` 指定的文件。执行预测时需要设置 `init_from_params` 来给出模型所在目录，更多参数的使用可以在 `./sample/config/transformer.base.yaml` 文件中查阅注释说明并进行更改设置。如果执行不提供 `--config` 选项，程序将默认使用 base model 的配置。
+
+需要注意的是，目前预测仅实现了单卡的预测，原因在于，翻译后面需要的模型评估依赖于预测结果写入文件顺序，多卡情况下，目前暂未支持将结果按照指定顺序写入文件。


如果sample部分是随机数据的话这些评估相关的内容去掉

Done. Thanks.

guoshengCS · 2021-03-04T02:54:38Z

paddlenlp/ext_op/transformer/fastertransformer.py

+            "Please set init_from_params to load the infer model.")
+
+        model_dict = paddle.load(
+            os.path.join(init_from_params, "transformer.pdparams"))


这里不要用staticmethod，就直接使用self中的参数。另外"transformer.pdparams"需要拼上的话在predict代码中补上吧，和训练时save一致。

Done. Thanks.

FrostML · 2021-03-04T06:12:45Z

目前代码路径组织方式：
在 example/ 下，提供基于 Faster Transformer 且与动态图对齐的预测脚本：

在 paddlenlp/ext_op/ 下加入自定义 op 实现代码，并完成封装，编译目前也在当前目录进行：

transformer/ 路径为封装的 API
src/ 路径为自定义 op 实现
sample/ 路径为 API 调用样例

guoshengCS · 2021-03-04T06:22:52Z

paddlenlp/ext_op/transformer/fastertransformer.py

+
+        return ids
+
+    def load_dygraph_ckpt(self, init_from_params, max_length):


如讨论，这里就叫load吧

Done. Thanks.

guoshengCS · 2021-03-04T06:24:12Z

examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py

+    transformer.load_dygraph_ckpt(
+        init_from_params=os.path.join(args.init_from_params,
+                                      "transformer.pdparams"),
+        max_length=args.max_length)


确认下这里和上面的max_length=args.max_length + 1,

Done. Thanks.

ZeyuChen · 2021-02-28T07:16:12Z

paddlenlp/ext_op/transformer/fastertransformer.py

@@ -0,0 +1,85 @@
+import paddle


改文件名建议重命名为faster_transformer.py

Done. Thanks.

ZeyuChen · 2021-02-28T07:17:46Z

paddlenlp/ext_op/__init__.py

@@ -0,0 +1,2 @@
+from .transformer.decoding import *
+from .transformer.fastertransformer import *


这里的模块重命名为faster_transformer会更清晰

Done. Thanks.

ZeyuChen · 2021-03-04T05:42:49Z

examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py

+
+
+def do_predict(args):
+    place = "gpu:0"


需要精准的控制到gpu:0?

预测会写入文件，并且需要确保顺序一致以保证 bleu 计算，所以使用单卡预测。这里写成 0，目的是通过设置 CUDA VISIBLE DEVICES 来选择具体的卡。
另，因 Faster Transformer 未实现 CPU，故限制为 "gpu:0"。

这里直接只使用gpu也会是一样的效果，倾向于把0去掉吧，其他模型应该都是直接用的gpu，统一成gpu吧

Done. Thanks.

ZeyuChen · 2021-03-04T05:42:57Z

examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py

+from paddlenlp.transformers import position_encoding_init
+from paddlenlp.ext_op import FasterTransformer
+
+sys.path.append("../")


一定需要通过sys.path的方式添加吗？

reader 是在 examples/machine_translation/transformer/，因为是放在 example 里面，似乎没有太多选择，不过顾虑应该也不多。
有什么更好的示例推荐么？

前处理优化

Add Graph Normalization Layers

add faster transformer

d1d41aa

FrostML requested a review from guoshengCS February 25, 2021 05:51

ZeyuChen assigned guoshengCS Feb 28, 2021

FrostML added 11 commits March 1, 2021 03:09

add README

d92f93d

add fp16

8abb1fd

Merge branch 'develop' of https://github.com/PaddlePaddle/PaddleNLP i…

94ceb47

…nto faster-transformer

add big config

7578cd5

delete temp time record

d35e2e9

improve performance

d9f0ba3

vocab_size

c07c041

add decoding sample config

c02cb6b

add desription for variable in op.cc

d12e901

add clang format

ecfe541

add reader description

9bc44e1

guoshengCS reviewed Mar 3, 2021

View reviewed changes

FrostML added 2 commits March 3, 2021 12:37

update comments

099656d

process format and rm useless import

1e6d570

guoshengCS reviewed Mar 4, 2021

View reviewed changes

FrostML added 2 commits March 4, 2021 04:33

comments

c20dddb

add decription

cdd109c

FrostML requested a review from ZeyuChen March 4, 2021 04:39

undo useless change

13c0106

guoshengCS reviewed Mar 4, 2021

View reviewed changes

update load

93b3fb2

ZeyuChen reviewed Mar 4, 2021

View reviewed changes

FrostML added 4 commits March 5, 2021 02:24

update according to comments

1464eff

ulter

afe59f2

update readme

87bd142

add more info in readme

e6278cb

FrostML added 2 commits March 5, 2021 09:32

update readme

5d08664

gpu:0 -> gpu

d02ab66

guoshengCS approved these changes Mar 5, 2021

View reviewed changes

guoshengCS merged commit 80c1f77 into PaddlePaddle:develop Mar 5, 2021

bmers pushed a commit to bmers/PaddleNLP that referenced this pull request Jan 20, 2024

Merge pull request PaddlePaddle#37 from bmers/1_10_process

dc09df0

前处理优化

DesmonDay pushed a commit to DesmonDay/PaddleNLP that referenced this pull request Sep 23, 2024

Merge pull request PaddlePaddle#37 from Yelrose/master

46dd55d

Add Graph Normalization Layers

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add faster transformer for decoding #37

Add faster transformer for decoding #37

FrostML commented Feb 25, 2021 •

edited

Loading

guoshengCS Mar 2, 2021

FrostML Mar 3, 2021

guoshengCS Mar 3, 2021

FrostML Mar 3, 2021

guoshengCS Mar 3, 2021

guoshengCS Mar 3, 2021

FrostML Mar 3, 2021

guoshengCS left a comment •

edited

Loading

guoshengCS Mar 3, 2021

FrostML Mar 4, 2021

guoshengCS Mar 3, 2021

FrostML Mar 4, 2021

guoshengCS Mar 3, 2021

FrostML Mar 4, 2021

guoshengCS Mar 4, 2021

FrostML Mar 4, 2021

guoshengCS Mar 4, 2021

FrostML Mar 4, 2021

FrostML commented Mar 4, 2021 •

edited

Loading

guoshengCS Mar 4, 2021

FrostML Mar 4, 2021

guoshengCS Mar 4, 2021

FrostML Mar 4, 2021

ZeyuChen Feb 28, 2021

FrostML Mar 5, 2021

ZeyuChen Feb 28, 2021

FrostML Mar 5, 2021

ZeyuChen Mar 4, 2021

FrostML Mar 5, 2021

guoshengCS Mar 5, 2021

FrostML Mar 5, 2021

ZeyuChen Mar 4, 2021

FrostML Mar 5, 2021


		翻译结果会输出到 `output_file` 指定的文件。执行预测时需要设置 `init_from_params` 来给出模型所在目录，更多参数的使用可以在 `./sample/config/transformer.base.yaml` 文件中查阅注释说明并进行更改设置。如果执行不提供 `--config` 选项，程序将默认使用 base model 的配置。

		需要注意的是，目前预测仅实现了单卡的预测，原因在于，翻译后面需要的模型评估依赖于预测结果写入文件顺序，多卡情况下，目前暂未支持将结果按照指定顺序写入文件。


		return ids

		def load_dygraph_ckpt(self, init_from_params, max_length):

		@@ -0,0 +1,2 @@
		from .transformer.decoding import *
		from .transformer.fastertransformer import *

Add faster transformer for decoding #37

Add faster transformer for decoding #37

Conversation

FrostML commented Feb 25, 2021 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

guoshengCS left a comment • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

FrostML commented Mar 4, 2021 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

FrostML commented Feb 25, 2021 •

edited

Loading

guoshengCS left a comment •

edited

Loading

FrostML commented Mar 4, 2021 •

edited

Loading