Attention Is All You Need,Transformer 论文阅读
- Transformer
- 注意力
RNN:1、并行计算的信息能力比较差 2、梯度消失问题。前面的内容可能随时句子的长度加长,而出现信息的丢失。
Transformer:支持高并行的计算能力。
自回归:当前的输出做为接下来输出内容的输入。
RNN:1、并行计算的信息能力比较差 2、梯度消失问题。前面的内容可能随时句子的长度加长,而出现信息的丢失。
Transformer:支持高并行的计算能力。
自回归:当前的输出做为接下来输出内容的输入。