Deep learning 如何在信息检索中考虑词依赖性和语义信息？_Deep Learning_Nlp_Text Mining_Information Retrieval_Word Embedding

Deep learning 如何在信息检索中考虑词依赖性和语义信息？

deep-learning nlp

Deep learning 如何在信息检索中考虑词依赖性和语义信息？,deep-learning,nlp,text-mining,information-retrieval,word-embedding,Deep Learning,Nlp,Text Mining,Information Retrieval,Word Embedding,我正在做一个项目，文本检索是其中的一个重要部分。有一个引用集合（D），用户可以输入查询（Q）。因此，与搜索引擎一样，目标是检索与每个查询最相关的文档我使用预先训练好的单词嵌入来提取文本中每个单词的语义知识。然后，我聚合单词的连续向量，将每个文本表示为一个向量（使用均值/总和聚合函数）。接下来，我对源向量进行索引，并提取与查询向量最相似的向量。然而，结果是不可接受的。我还测试了传统的方法，比如弓技术。虽然这些方法在某些情况下工作得很好，但是它们不考虑语义和句法信息（这使得它们对某些查询不好）。

我正在做一个项目，文本检索是其中的一个重要部分。有一个引用集合（D），用户可以输入查询（Q）。因此，与搜索引擎一样，目标是检索与每个查询最相关的文档

我使用预先训练好的单词嵌入来提取文本中每个单词的语义知识。然后，我聚合单词的连续向量，将每个文本表示为一个向量（使用均值/总和聚合函数）。接下来，我对源向量进行索引，并提取与查询向量最相似的向量。然而，结果是不可接受的。我还测试了传统的方法，比如弓技术。虽然这些方法在某些情况下工作得很好，但是它们不考虑语义和句法信息（这使得它们对某些查询不好）。根据我的调查，考虑单词相关性（例如，同一句子中的单词共现）以及语义信息（使用预先训练的单词嵌入获得）可能非常有用。然而，我不知道如何将它们结合起来应用于IR

应当指出的是：

我不是在找第2vec或doc2vec段；这些需要在大型数据语料库上进行培训，而我没有大型数据语料库。相反，我想使用现有的单词embedings
我不是在寻找一种像学习排名方法那样的重新排名技术。相反，我正在寻找一种方法来利用表示步骤中的语法和语义信息，即将文本或查询映射到特征向量。

任何帮助都将不胜感激

一篇课文有多少个单词？多句话？数据样本有助于更好地理解问题。谢谢。源文档很长，平均每个文档300句。我还试着把课文分段。它改进了结果，但需要更好的结果。你可以尝试实现我论文的想法。。。谢谢你，德巴西斯。我已经看过你那篇有趣的论文了。你能分享一下你的源代码吗？还有一些地方我不太清楚。这是代码。。。警告一句：我不再坚持这一点了……一篇文章中有多少个单词？多句话？数据样本有助于更好地理解问题。谢谢。源文档很长，平均每个文档300句。我还试着把课文分段。它改进了结果，但需要更好的结果。你可以尝试实现我论文的想法。。。谢谢你，德巴西斯。我已经看过你那篇有趣的论文了。你能分享一下你的源代码吗？还有一些地方我不太清楚。这是代码。。。警告一句：我不再坚持这一点了。。。