Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/sqlite/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 极短文档的文档查询相似性_Nlp_Information Retrieval_Tf Idf_Text Analysis - Fatal编程技术网

Nlp 极短文档的文档查询相似性

Nlp 极短文档的文档查询相似性,nlp,information-retrieval,tf-idf,text-analysis,Nlp,Information Retrieval,Tf Idf,Text Analysis,我正在做一个项目,其中包含了向量空间模型的基本实现。文档集合d1…dn构成术语文档矩阵的列,行表示集合中的单词。我使用标准tf idf评分和余弦相似性来计算查询和文档之间的距离 我的问题是,哪种距离度量可以“处理”短文档之间的相似性。示例:一个包含单个单词的文档是查询的一部分,使用余弦相似度将获得非常高的分数,因为这样一个文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文档?问题:一个单词的文档应该被视为文档吗?如果是,为什么?再次提问:您的数据集有多大?其中有多少是单字/短文档?再次问:如

我正在做一个项目,其中包含了向量空间模型的基本实现。文档集合d1…dn构成术语文档矩阵的列,行表示集合中的单词。我使用标准tf idf评分和余弦相似性来计算查询和文档之间的距离


我的问题是,哪种距离度量可以“处理”短文档之间的相似性。示例:一个包含单个单词的文档是查询的一部分,使用余弦相似度将获得非常高的分数,因为这样一个文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文档?

问题:一个单词的文档应该被视为文档吗?如果是,为什么?再次提问:您的数据集有多大?其中有多少是单字/短文档?再次问:如果我有两份文件,一份说“狗”,另一份说“狗”?在文档相似性任务中,它们是否应该相似?答案:1。)单词文档仍然被视为文档。原因是我的上下文中的文档实际上是一个网页,除了原始html文本之外,它还有其他“特性”。2.)数据集包含数千个文档,约10%的文档较短。3.)在我的应用程序中,诸如“dog”和“犬科”之类的词不必相似,尽管这会很好。我相信使用WordNet可以考虑这种词汇连接,尽管关于“web”上下文有很多俚语,所以我认为这是另一个完全不同的问题。你能举几个例子说明你的数据集中的短文档吗?例如:“此域待售”、“停驻域”应该受到你的系统惩罚在这种情况下是“停放的域名”?