Machine learning DSSM中单词哈希的混淆？_Machine Learning_Text_Nlp_Word_Information Retrieval

Machine learning DSSM中单词哈希的混淆？

machine-learning text nlp

Machine learning DSSM中单词哈希的混淆？,machine-learning,text,nlp,word,information-retrieval,Machine Learning,Text,Nlp,Word,Information Retrieval,在本文中，它使用单词哈希技术将单词的一个热表示转换为字母三角图的（稀疏）向量例如，根据我的理解，单词look首先被分解为字母三角形[#lo，loo，ook，ok#]，然后被表示为一个向量，其中每个三角形对应1，其他地方对应0。通过这样做，它可以减少字向量的维数，同时如论文中所述，碰撞很少我的困惑是，通常如果我们使用单词袋表示法来表示基于一个热门表示法的文档，我们只计算每个单词的出现次数。然而，我可以想象，如果我们使用基于字母三叉图的单词包，很容易会有不同的单词共享相同的模式，因此似乎很难通过

在本文中，它使用单词哈希技术将单词的一个热表示转换为字母三角图的（稀疏）向量

例如，根据我的理解，单词

look

首先被分解为字母三角形

[#lo，loo，ook，ok#]

，然后被表示为一个向量，其中每个三角形对应1，其他地方对应0。通过这样做，它可以减少字向量的维数，同时如论文中所述，碰撞很少

我的困惑是，通常如果我们使用单词袋表示法来表示基于一个热门表示法的文档，我们只计算每个单词的出现次数。然而，我可以想象，如果我们使用基于字母三叉图的单词包，很容易会有不同的单词共享相同的模式，因此似乎很难通过这种表示来恢复文档中哪些单词的信息

我理解对了吗？这个问题是如何解决的？或者这对论文中的查询/标题实验并不重要

然而，我可以想象，如果我们使用基于字母三叉图的单词包，很容易会有不同的单词共享相同的模式，因此似乎很难通过这种表示来恢复文档中哪些单词的信息

这是正确的，因为该模型没有明确地通过使用单词中的信息来学习后验概率。相反，它使用了来自三角图的信息

这个问题是如何解决的？或者这对论文中的查询/标题实验并不重要

这个问题可以通过添加一个CNN/LSTM层来解决，该层表示从三元输入的更高（接近单词）抽象。在中报道的研究在三元输入上使用了CNN，如下所示

谢谢你的回答，我猜CNN+池结构来自于同一作者完成的名为CLSM的以下工作，实际上我想问他们在最初的DSSM论文中是如何解决这个问题的？不，他们没有。。。在我看来，对于他们的任务，他们发现三叉戟足够好。。。我引用的论文来自另一位作者……是的，但这张图片似乎是CLSM工作的参考，无论如何，谢谢：）