lecture10-Transformer解读 #50

logan-zou · 2023-02-01T05:50:59Z

上传了第十章常见代码解读的Transformer解读部分。

ZhikangNiu

序号问题
图片名称全部改为英文
可以附上参考资料
Transformer国内外有很多写的比较好的blog可以参考解读下，可以更深层次解读下
MultiheadAttention 在pytorch提供了该方法，可以简单介绍下 @nowadays0421

ZhikangNiu · 2023-02-01T06:02:51Z

source/第十章/Transformer 解读.md

+
+	针对上述两个问题，2017年，Vaswani 等人发表了论文《Attention Is All You Need》，抛弃了传统的 CNN、RNN 架构，提出了一种全新的完全基于 attention 机制的模型——Transformer，解决了上述问题，在较小的时间成本下取得了多个任务的 the-state-of-art 效果，并为自然语言处理任务提供了新的思路。自此，attention 机制进入自然语言处理任务的主流架构，众多性能卓越的预训练模型都基于 Transformer 架构提出，例如 BERT、OpenAI GPT 等。
+
+	本文将从模型原理及代码实现上讲解该模型，并着重介绍代码实现。需要注意的是，由于 Transformer 源代码使用 TensorFlow 搭建，此处选择了哈佛大学 harvardnlp 团队基于 Pytorch 框架开发的 Annotated Transformer 代码进行讲解，以帮助大家了解 Transformer 的实现细节。


这里可不可以把Annotated Transformer的链接也附上，做成超链接

ZhikangNiu · 2023-02-01T06:03:35Z

source/第十章/Transformer 解读.md

+	① RNN 为单向依序计算，序列需要依次输入、串行计算，限制了计算机的并行计算能力，导致时间成本过高。
+
+	② RNN 难以捕捉长期依赖问题，即对于极长序列，RNN 难以捕捉远距离输入之间的关系。虽然 LSTM 通过门机制对此进行了一定优化，但 RNN 对长期依赖问题的捕捉能力依旧是不如人意的。


改成1. 形式，不要用圆圈一（

ZhikangNiu · 2023-02-01T06:04:21Z

source/第十章/Transformer 解读.md

+
+	Transformer 是针对自然语言处理的 Seq2Seq（序列到序列）任务开发的，整体上沿用了 Seq2Seq 模型的 Encoder-Decoder（编码器-解码器）结构，整体架构如下：
+
+<img src="./figures/transformer_整体架构.png" alt="image-20230127193646262" style="zoom:50%;" />


图片名称使用全英文，带中文会导致后面在线网页导出有问题

可以加上align="center"，使得图片居中

ZhikangNiu · 2023-02-01T06:08:02Z

source/第十章/Transformer 解读.md

+
+## Mask
+
+	Transformer 是一个自回归模型，类似于语言模型，其将利用历史信息依序对输出进行预测。例如，如果语料的句对为：① BOS 我爱你 EOS；② BOS I like you EOS。则 Encoder 获取的输入将会是句①整体，并输出句①的编码信息，但 Decoder 的输入并不一开始就是句②整体，而是先输入起始符 BOS，Decoder 根据 BOS 与 Encoder 的输出预测 I，再输入 BOS I，Decoder 根据输入和 Encoder 的输出预测 like。因此，自回归模型需要对输入进行 mask（遮蔽），以保证模型不会使用未来信息预测当下。关于自回归模型与自编码模型的细节，感兴趣的读者可以下来查阅更多资料。


序号问题

BOS这种作为特殊字符，是不是应该以加上括号区分开来

关于关于自回归模型与自编码模型的细节，感兴趣的读者可以下来查阅更多资料，可以给出相关链接

logan-zou added 2 commits February 1, 2023 13:46

upload pictures for Transformer

636d203

upload Transformer解读

358d9f4

ZhikangNiu requested changes Feb 1, 2023

View reviewed changes

logan-zou added 20 commits February 4, 2023 22:32

Delete transformer_位置编码.png

2aa68ff

Delete transformer_整体架构.png

41b3357

Delete transformer_Decoder.png

3060604

Delete transformer_Encoder.png

b0b9e7d

Delete transformer_Multi-Head attention.png

1cd5323

Delete transformer_attention.png

83a7b62

upload pictures for Transformer

152eac2

update Transformer解读

d3a5b78

upload pictures for Transformer

2694eb4

update Transformer解读

bc8bb6b

update Transformer解读

3390dd8

upload pictures for Transformer

1995473

Delete Transformer_attention_compute.png

56b6703

Delete Transformer_attention_compute_2.png

0ce901d

upload pictures for Transformer

4716d13

update pictures for Transformer

e0ca63f

upload pictures for Transformer

34a785d

update Transformer解读

f6a0a27

update Transformer解读

320c5ed

update Transformer解读

debd0d1

ZhikangNiu approved these changes Feb 9, 2023

View reviewed changes

ZhikangNiu merged commit 184fe0b into datawhalechina:main Feb 9, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lecture10-Transformer解读 #50

lecture10-Transformer解读 #50

logan-zou commented Feb 1, 2023

ZhikangNiu left a comment

ZhikangNiu Feb 1, 2023

ZhikangNiu Feb 1, 2023

ZhikangNiu Feb 1, 2023

ZhikangNiu Feb 1, 2023


		针对上述两个问题，2017年，Vaswani 等人发表了论文《Attention Is All You Need》，抛弃了传统的 CNN、RNN 架构，提出了一种全新的完全基于 attention 机制的模型——Transformer，解决了上述问题，在较小的时间成本下取得了多个任务的 the-state-of-art 效果，并为自然语言处理任务提供了新的思路。自此，attention 机制进入自然语言处理任务的主流架构，众多性能卓越的预训练模型都基于 Transformer 架构提出，例如 BERT、OpenAI GPT 等。

		本文将从模型原理及代码实现上讲解该模型，并着重介绍代码实现。需要注意的是，由于 Transformer 源代码使用 TensorFlow 搭建，此处选择了哈佛大学 harvardnlp 团队基于 Pytorch 框架开发的 Annotated Transformer 代码进行讲解，以帮助大家了解 Transformer 的实现细节。

		① RNN 为单向依序计算，序列需要依次输入、串行计算，限制了计算机的并行计算能力，导致时间成本过高。

		② RNN 难以捕捉长期依赖问题，即对于极长序列，RNN 难以捕捉远距离输入之间的关系。虽然 LSTM 通过门机制对此进行了一定优化，但 RNN 对长期依赖问题的捕捉能力依旧是不如人意的。


		Transformer 是针对自然语言处理的 Seq2Seq（序列到序列）任务开发的，整体上沿用了 Seq2Seq 模型的 Encoder-Decoder（编码器-解码器）结构，整体架构如下：

		<img src="./figures/transformer_整体架构.png" alt="image-20230127193646262" style="zoom:50%;" />


		## Mask

		Transformer 是一个自回归模型，类似于语言模型，其将利用历史信息依序对输出进行预测。例如，如果语料的句对为：① BOS 我爱你 EOS；② BOS I like you EOS。则 Encoder 获取的输入将会是句①整体，并输出句①的编码信息，但 Decoder 的输入并不一开始就是句②整体，而是先输入起始符 BOS，Decoder 根据 BOS 与 Encoder 的输出预测 I，再输入 BOS I，Decoder 根据输入和 Encoder 的输出预测 like。因此，自回归模型需要对输入进行 mask（遮蔽），以保证模型不会使用未来信息预测当下。关于自回归模型与自编码模型的细节，感兴趣的读者可以下来查阅更多资料。

lecture10-Transformer解读 #50

lecture10-Transformer解读 #50

Conversation

logan-zou commented Feb 1, 2023

ZhikangNiu left a comment

Choose a reason for hiding this comment

ZhikangNiu Feb 1, 2023

Choose a reason for hiding this comment

ZhikangNiu Feb 1, 2023

Choose a reason for hiding this comment

ZhikangNiu Feb 1, 2023

Choose a reason for hiding this comment

ZhikangNiu Feb 1, 2023

Choose a reason for hiding this comment