Machine learning 为什么自然语言处理中的转换器需要一堆编码器?

Machine learning 为什么自然语言处理中的转换器需要一堆编码器?,machine-learning,deep-learning,nlp,transformer,Machine Learning,Deep Learning,Nlp,Transformer,我关注这个关于变形金刚的博客 我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕捉问题的不同表征空间。我不明白为什么需要一个编码器和解码器的垂直堆栈。一个编码器/解码器层不起作用吗?堆叠层是任何深度学习体系结构强大的原因,专注地使用单个编码器/解码器将无法捕获整个语言建模所需的复杂性,也无法在像语言翻译这样复杂的任务上实现高精度归档,编码器/解码器堆栈的使用允许网络提取分层特征并模拟复杂问题。它是否像CNN中的层,如果在开始层检测到低级特征,然后在高级层检测到高级特征?证明深度

我关注这个关于变形金刚的博客


我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕捉问题的不同表征空间。我不明白为什么需要一个编码器和解码器的垂直堆栈。一个编码器/解码器层不起作用吗?

堆叠层是任何深度学习体系结构强大的原因,专注地使用单个编码器/解码器将无法捕获整个语言建模所需的复杂性,也无法在像语言翻译这样复杂的任务上实现高精度归档,编码器/解码器堆栈的使用允许网络提取分层特征并模拟复杂问题。

它是否像CNN中的层,如果在开始层检测到低级特征,然后在高级层检测到高级特征?证明深度并不能真正证明需要2个不同的编码器/解码器堆栈,这是问题的关键