Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 在使用Textrank提取关键词时,单词出现的顺序是否重要?_Nlp_Keyword - Fatal编程技术网

Nlp 在使用Textrank提取关键词时,单词出现的顺序是否重要?

Nlp 在使用Textrank提取关键词时,单词出现的顺序是否重要?,nlp,keyword,Nlp,Keyword,我使用textrank从文档中提取关键字。我认为单词出现的顺序对单词重要性的最终权重有一定的影响,这不是很容易理解的 假设我们使用一个windows大小为2的无向图来执行句子[w1,w2,w3,w4]的关键字提取任务。在构造图时,我们可以添加边,如w1、w2、w2、w1、w2、w3、w3、w2……在这种情况下,单词w1只有两条边,而w2有四条边。考虑到这一点,没有任何进一步的计算,w2比w1更有可能成为关键字,这只是由于出现的顺序。对我来说,这没有多大意义。有什么方法可以避免这个因素吗?你可以在

我使用textrank从文档中提取关键字。我认为单词出现的顺序对单词重要性的最终权重有一定的影响,这不是很容易理解的


假设我们使用一个windows大小为2的无向图来执行句子[w1,w2,w3,w4]的关键字提取任务。在构造图时,我们可以添加边,如w1、w2、w2、w1、w2、w3、w3、w2……在这种情况下,单词w1只有两条边,而w2有四条边。考虑到这一点,没有任何进一步的计算,w2比w1更有可能成为关键字,这只是由于出现的顺序。对我来说,这没有多大意义。有什么方法可以避免这个因素吗?

你可以在同一个句子中查找,而不是在2个窗口中查找。此外,你可以忽略句号。而不是文本w1 w2。w3w4变成w1,w2w2w1w3,w4w4,w3你可以忽略句号,也可以包括w2,w3w3w2。这样,整个文本中只有第一个和最后一个单词才有两个连接。即使这样,你也可以说这些作品有一个链接,就像文字环绕着一样。