Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/opencv/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707]_Stanford Nlp_Information Retrieval_Tf Idf - Fatal编程技术网

Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707]

Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707],stanford-nlp,information-retrieval,tf-idf,Stanford Nlp,Information Retrieval,Tf Idf,我正在读《信息检索导论》(Christopher Manning)一书,当第6章介绍查询“嫉妒的流言蜚语”时,我被困在第6章中。考虑到影响、嫉妒和流言蜚语这三个术语,该查询表示关联的向量单位为[0,0.707,0.707]()。 我试图通过计算tfidf来计算它,假设: -嫉妒和流言蜚语的Tf等于1 -如果我们将Idf计算为N=1的log(N/df)(我只有一个查询,它是我的文档),则Idf始终等于0,对于嫉妒和流言蜚语,df=1=>log(1)=0 由于idf为0,因此tfidf为0。 所以我

我正在读《信息检索导论》(Christopher Manning)一书,当第6章介绍查询“嫉妒的流言蜚语”时,我被困在第6章中。考虑到影响、嫉妒和流言蜚语这三个术语,该查询表示关联的向量单位为[0,0.707,0.707]()。 我试图通过计算tfidf来计算它,假设: -嫉妒和流言蜚语的Tf等于1 -如果我们将Idf计算为N=1的log(N/df)(我只有一个查询,它是我的文档),则Idf始终等于0,对于嫉妒和流言蜚语,df=1=>log(1)=0 由于idf为0,因此tfidf为0。 所以我决定用原始tf除以欧几里德长度来计算查询向量的每个权重。在这种情况下,欧几里德长度为sqrt(1+1)=1。 我无法获得确定[0,0.707,0.707]是查询向量的公式。
有人能帮我吗

我还没有解决这个问题,但我认为问题可能是
sqrt(1+1)
sqrt(2)
,所以当你规范化时,每个1都变成
1/sqrt(2)=0.707

我投票结束这个问题,因为它似乎与数学有关,而不是与编程有关。非常感谢!!