Machine learning DSSM中单词哈希的混淆?

Machine learning DSSM中单词哈希的混淆?,machine-learning,text,nlp,word,information-retrieval,Machine Learning,Text,Nlp,Word,Information Retrieval,在本文中,它使用单词哈希技术将单词的一个热表示转换为字母三角图的(稀疏)向量 例如,根据我的理解,单词look首先被分解为字母三角形[#lo,loo,ook,ok#],然后被表示为一个向量,其中每个三角形对应1,其他地方对应0。通过这样做,它可以减少字向量的维数,同时如论文中所述,碰撞很少 我的困惑是,通常如果我们使用单词袋表示法来表示基于一个热门表示法的文档,我们只计算每个单词的出现次数。然而,我可以想象,如果我们使用基于字母三叉图的单词包,很容易会有不同的单词共享相同的模式,因此似乎很难通过

在本文中,它使用单词哈希技术将单词的一个热表示转换为字母三角图的(稀疏)向量

例如,根据我的理解,单词
look
首先被分解为字母三角形
[#lo,loo,ook,ok#]
,然后被表示为一个向量,其中每个三角形对应1,其他地方对应0。通过这样做,它可以减少字向量的维数,同时如论文中所述,碰撞很少

我的困惑是,通常如果我们使用单词袋表示法来表示基于一个热门表示法的文档,我们只计算每个单词的出现次数。然而,我可以想象,如果我们使用基于字母三叉图的单词包,很容易会有不同的单词共享相同的模式,因此似乎很难通过这种表示来恢复文档中哪些单词的信息

我理解对了吗?这个问题是如何解决的?或者这对论文中的查询/标题实验并不重要

然而,我可以想象,如果我们使用基于字母三叉图的单词包,很容易会有不同的单词共享相同的模式,因此似乎很难通过这种表示来恢复文档中哪些单词的信息

这是正确的,因为该模型没有明确地通过使用单词中的信息来学习后验概率。相反,它使用了来自三角图的信息

这个问题是如何解决的?或者这对论文中的查询/标题实验并不重要

这个问题可以通过添加一个CNN/LSTM层来解决,该层表示从三元输入的更高(接近单词)抽象。在中报道的研究在三元输入上使用了CNN,如下所示


谢谢你的回答,我猜CNN+池结构来自于同一作者完成的名为CLSM的以下工作,实际上我想问他们在最初的DSSM论文中是如何解决这个问题的?不,他们没有。。。在我看来,对于他们的任务,他们发现三叉戟足够好。。。我引用的论文来自另一位作者……是的,但这张图片似乎是CLSM工作的参考,无论如何,谢谢:)