Nlp 极短文档的文档查询相似性_Nlp_Information Retrieval_Tf Idf_Text Analysis

Nlp 极短文档的文档查询相似性

nlp

Nlp 极短文档的文档查询相似性,nlp,information-retrieval,tf-idf,text-analysis,Nlp,Information Retrieval,Tf Idf,Text Analysis,我正在做一个项目，其中包含了向量空间模型的基本实现。文档集合d1…dn构成术语文档矩阵的列，行表示集合中的单词。我使用标准tf idf评分和余弦相似性来计算查询和文档之间的距离我的问题是，哪种距离度量可以“处理”短文档之间的相似性。示例：一个包含单个单词的文档是查询的一部分，使用余弦相似度将获得非常高的分数，因为这样一个文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文档？问题：一个单词的文档应该被视为文档吗？如果是，为什么？再次提问：您的数据集有多大？其中有多少是单字/短文档？再次问：如

我正在做一个项目，其中包含了向量空间模型的基本实现。文档集合d1…dn构成术语文档矩阵的列，行表示集合中的单词。我使用标准tf idf评分和余弦相似性来计算查询和文档之间的距离

我的问题是，哪种距离度量可以“处理”短文档之间的相似性。示例：一个包含单个单词的文档是查询的一部分，使用余弦相似度将获得非常高的分数，因为这样一个文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文档？

问题：一个单词的文档应该被视为文档吗？如果是，为什么？再次提问：您的数据集有多大？其中有多少是单字/短文档？再次问：如果我有两份文件，一份说“狗”，另一份说“狗”？在文档相似性任务中，它们是否应该相似？答案：1。）单词文档仍然被视为文档。原因是我的上下文中的文档实际上是一个网页，除了原始html文本之外，它还有其他“特性”。2.）数据集包含数千个文档，约10%的文档较短。3.）在我的应用程序中，诸如“dog”和“犬科”之类的词不必相似，尽管这会很好。我相信使用WordNet可以考虑这种词汇连接，尽管关于“web”上下文有很多俚语，所以我认为这是另一个完全不同的问题。你能举几个例子说明你的数据集中的短文档吗？例如：“此域待售”、“停驻域”应该受到你的系统惩罚在这种情况下是“停放的域名”？