Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707]_Stanford Nlp_Information Retrieval_Tf Idf

Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707]

stanford-nlp

Stanford nlp 向量空间模型-计算的查询向量[0,0.707,0.707],stanford-nlp,information-retrieval,tf-idf,Stanford Nlp,Information Retrieval,Tf Idf,我正在读《信息检索导论》（Christopher Manning）一书，当第6章介绍查询“嫉妒的流言蜚语”时，我被困在第6章中。考虑到影响、嫉妒和流言蜚语这三个术语，该查询表示关联的向量单位为[0,0.707,0.707]（）。我试图通过计算tfidf来计算它，假设： -嫉妒和流言蜚语的Tf等于1 -如果我们将Idf计算为N=1的log（N/df）（我只有一个查询，它是我的文档），则Idf始终等于0，对于嫉妒和流言蜚语，df=1=>log（1）=0 由于idf为0，因此tfidf为0。所以我

我正在读《信息检索导论》（Christopher Manning）一书，当第6章介绍查询“嫉妒的流言蜚语”时，我被困在第6章中。考虑到影响、嫉妒和流言蜚语这三个术语，该查询表示关联的向量单位为[0,0.707,0.707]（）。我试图通过计算tfidf来计算它，假设： -嫉妒和流言蜚语的Tf等于1 -如果我们将Idf计算为N=1的log（N/df）（我只有一个查询，它是我的文档），则Idf始终等于0，对于嫉妒和流言蜚语，df=1=>log（1）=0 由于idf为0，因此tfidf为0。所以我决定用原始tf除以欧几里德长度来计算查询向量的每个权重。在这种情况下，欧几里德长度为sqrt（1+1）=1。我无法获得确定[0,0.707,0.707]是查询向量的公式。

有人能帮我吗

我还没有解决这个问题，但我认为问题可能是

sqrt（1+1）

是

sqrt（2）

，所以当你规范化时，每个1都变成

1/sqrt（2）=0.707

我投票结束这个问题，因为它似乎与数学有关，而不是与编程有关。非常感谢！！