Deep learning 如何在信息检索中考虑词依赖性和语义信息?

Deep learning 如何在信息检索中考虑词依赖性和语义信息?,deep-learning,nlp,text-mining,information-retrieval,word-embedding,Deep Learning,Nlp,Text Mining,Information Retrieval,Word Embedding,我正在做一个项目,文本检索是其中的一个重要部分。有一个引用集合(D),用户可以输入查询(Q)。因此,与搜索引擎一样,目标是检索与每个查询最相关的文档 我使用预先训练好的单词嵌入来提取文本中每个单词的语义知识。然后,我聚合单词的连续向量,将每个文本表示为一个向量(使用均值/总和聚合函数)。接下来,我对源向量进行索引,并提取与查询向量最相似的向量。然而,结果是不可接受的。我还测试了传统的方法,比如弓技术。虽然这些方法在某些情况下工作得很好,但是它们不考虑语义和句法信息(这使得它们对某些查询不好)。

我正在做一个项目,文本检索是其中的一个重要部分。有一个引用集合(D),用户可以输入查询(Q)。因此,与搜索引擎一样,目标是检索与每个查询最相关的文档

我使用预先训练好的单词嵌入来提取文本中每个单词的语义知识。然后,我聚合单词的连续向量,将每个文本表示为一个向量(使用均值/总和聚合函数)。接下来,我对源向量进行索引,并提取与查询向量最相似的向量。然而,结果是不可接受的。我还测试了传统的方法,比如弓技术。虽然这些方法在某些情况下工作得很好,但是它们不考虑语义和句法信息(这使得它们对某些查询不好)。 根据我的调查,考虑单词相关性(例如,同一句子中的单词共现)以及语义信息(使用预先训练的单词嵌入获得)可能非常有用。然而,我不知道如何将它们结合起来应用于IR

应当指出的是:

  • 我不是在找第2vec或doc2vec段;这些需要在大型数据语料库上进行培训,而我没有大型数据语料库。相反,我想使用现有的单词embedings

  • 我不是在寻找一种像学习排名方法那样的重新排名技术。相反,我正在寻找一种方法来利用表示步骤中的语法和语义信息,即将文本或查询映射到特征向量。


任何帮助都将不胜感激

一篇课文有多少个单词?多句话?数据样本有助于更好地理解问题。谢谢。源文档很长,平均每个文档300句。我还试着把课文分段。它改进了结果,但需要更好的结果。你可以尝试实现我论文的想法。。。谢谢你,德巴西斯。我已经看过你那篇有趣的论文了。你能分享一下你的源代码吗?还有一些地方我不太清楚。这是代码。。。警告一句:我不再坚持这一点了……一篇文章中有多少个单词?多句话?数据样本有助于更好地理解问题。谢谢。源文档很长,平均每个文档300句。我还试着把课文分段。它改进了结果,但需要更好的结果。你可以尝试实现我论文的想法。。。谢谢你,德巴西斯。我已经看过你那篇有趣的论文了。你能分享一下你的源代码吗?还有一些地方我不太清楚。这是代码。。。警告一句:我不再坚持这一点了。。。