Attention Is All You Need,Transformer 论文阅读

发表于 2025-10-31 更新于 2025-11-04 本文字数： 104 阅读时长 ≈ 1 分钟

RNN：1、并行计算的信息能力比较差 2、梯度消失问题。前面的内容可能随时句子的长度加长，而出现信息的丢失。
Transformer：支持高并行的计算能力。
自回归：当前的输出做为接下来输出内容的输入。