Machine learning 软注意与硬注意

Machine learning 软注意与硬注意,machine-learning,neural-network,recurrent-neural-network,Machine Learning,Neural Network,Recurrent Neural Network,在这篇博文中,Andrej Karpath提到了基于神经网络的机器学习的未来方向: 注意力的概念是最近神经网络中最有趣的架构创新。[…]内存寻址的软注意方案很方便,因为它保持了模型的完全可微性,但不幸的是,它牺牲了效率,因为可以注意到的一切都被注意到了(但要柔和)。可以将此视为在C中声明一个指针,该指针不指向特定地址,而是在整个内存中的所有地址上定义一个完整的分布,取消对指针的引用将返回指向内容的加权和(这将是一个昂贵的操作!)。这促使多位作者将软注意模型替换为硬注意,其中一位作者对要处理的特定

在这篇博文中,Andrej Karpath提到了基于神经网络的机器学习的未来方向:

注意力的概念是最近神经网络中最有趣的架构创新。[…]内存寻址的软注意方案很方便,因为它保持了模型的完全可微性,但不幸的是,它牺牲了效率,因为可以注意到的一切都被注意到了(但要柔和)。可以将此视为在C中声明一个指针,该指针不指向特定地址,而是在整个内存中的所有地址上定义一个完整的分布,取消对指针的引用将返回指向内容的加权和(这将是一个昂贵的操作!)。这促使多位作者将软注意模型替换为硬注意,其中一位作者对要处理的特定内存块进行采样(例如,某个内存单元的读/写操作,而不是在某种程度上对所有单元进行读/写)。该模型在哲学上更具吸引力、可扩展性和效率,但不幸的是,它也是不可微的

我想我理解了指针的比喻,但什么是注意力,为什么硬的那个不可区分


我找到了关于注意力的解释,但仍然对软/硬部分感到困惑。

什么是注意力?

为了能够理解这个问题,我们需要深入研究一些注意力试图解决的问题。我认为关于“硬注意”的一篇开创性论文是,我鼓励读者仔细阅读这篇论文,即使一开始它似乎不完全可以理解

为了回答什么是注意力的问题,我将尝试提出一个我认为更容易回答的不同问题。也就是说,为什么要引起注意?。我链接的这篇论文试图简明扼要地回答这个问题,我将在这里重复部分推理

想象一下,你被蒙上眼睛,被带去参加一个惊喜的生日聚会,你刚刚睁开眼睛。你会看到什么?

现在,当我们说你看到图片时,这是以下技术上更正确的动作序列的一个简短版本,即随着时间的推移,移动你的眼睛并收集有关场景的信息。您不能同时看到图像的每个像素。您一次只关注图片的某些方面,并汇总信息。例如,即使在这样一张杂乱无章的照片中,你也会认出你的比尔叔叔和山姆表弟:)。为什么呢?因为您关注当前图像的某些突出方面

这正是我们想要赋予神经网络模型的力量。为什么?把这看作是某种正规化。(答案的这一部分引用了论文)你通常的卷积网络模型确实能够识别杂乱的图像,但是我们如何找到准确的“好”权重集呢?这是一项艰巨的任务。通过为网络提供新的体系结构级功能,允许它按顺序处理图像的不同部分,并随着时间的推移聚合信息,我们使这项工作变得更容易,因为现在网络可以简单地学会忽略混乱(或者希望如此)

我希望这能回答问题什么是难以集中注意力?。现在讨论它的可微性的性质。嗯,还记得我们在看生日照片的时候,是如何方便地选择正确的点来观看的吗?我们是怎么做到的?这个过程包括做出难以用输入(图像)的可微函数表示的选择。例如,根据您已经看过的内容和图像,决定下一步要看的地方。你可以有一个输出答案的神经网络,但是我们不知道正确的答案!事实上没有正确的答案。那么我们如何训练网络参数呢?神经网络训练严重依赖于输入的可微损失函数。此类损失函数的示例包括对数似然损失函数、平方损失函数等。但在这种情况下,我们没有下一步的正确答案。那么,我们如何定义损失呢?这就是所谓的强化学习(RL)的机器学习领域。RL允许您通过使用诸如强化方法和参与者-批评家算法之类的方法在策略空间中进行渐变

什么是软注意?

答案的这一部分借用了一篇名为。 RL方法(如Enhanced方法)的一个主要问题是,它们的方差很高(根据计算的预期回报的梯度),与网络中隐藏单元的数量成线性比例。这不是一件好事,尤其是如果你要建立一个庞大的网络。因此,人们试图寻找可区分的注意力模式。这意味着注意项和损失函数是输入的可微函数,因此所有梯度都存在。因此,我们可以使用标准的backprop算法和一个常用的损失函数来训练我们的网络。那么什么是软注意呢

在文本上下文中,它指的是模型选择将更重要的与文档中的某些单词与其他标记相关联的能力。如果您正在阅读一个文档,并且必须根据它回答一个问题,那么关注文档中的某些标记可能会帮助您更好地回答问题,而不仅仅是像阅读每个标记一样重要。这是文本中软注意背后的基本思想。之所以它是一个可微模型,是因为您完全基于特定的标记来决定对每个标记的关注程度