Nlp 省略哪些单词?

Nlp 省略哪些单词?,nlp,similarity,stop-words,Nlp,Similarity,Stop Words,我想找出两个句子之间的相似性度量。因为我利用了两个词各自的语义相似性。但是字典里有很多单词是我根据自己的句子拼成的。我想从句子中删除一些我认为不能传达内容信息的单词。首先,我删除了字母较少的单词,但我认为这并不合理,因为它还删除了一些信息丰富的单词 请看一些句子的部分 "Despite the fact that ..." "There's a debate such that ..." "To sum up ..." "Although ..., there is ..." 如果我有一个包含

我想找出两个句子之间的相似性度量。因为我利用了两个词各自的语义相似性。但是字典里有很多单词是我根据自己的句子拼成的。我想从句子中删除一些我认为不能传达内容信息的单词。首先,我删除了字母较少的单词,但我认为这并不合理,因为它还删除了一些信息丰富的单词

请看一些句子的部分

"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
如果我有一个包含这些单词的文本文件,我会将它们从字典中删除,只保留信息性单词


有没有你知道的英语单词列表,这样我就可以用来过滤我的字典了?

解决这类问题的一种方法是删除发行版的开头和结尾。非常常见的词(即停止词)几乎不添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。你必须小心唯一性的阈值,这取决于语料库的来源和异质性:用户生成的输入往往比来自维基百科等策划来源的内容包含更多独特的打字错误。

解决这类问题的一种方法是去掉发行版的头尾。非常常见的词(即停止词)几乎不添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。你必须注意唯一性的阈值,这取决于语料库的来源和异质性:用户生成的输入往往比来自维基百科等策划来源的内容包含更多独特的打字错误。

有可用的常见“停止词”列表,例如

停止词也可能在某种程度上依赖于域。例如,专利局显然认为“权利要求”和“实施例”极为常见,我怀疑这对于非专利特定文档是正确的。

有可用的常见“停止词”列表,例如


停止词也可能在某种程度上依赖于域。例如,作者显然认为“权利要求”和“实施例”非常常见,我怀疑这对于非专利特定文档是正确的。

我解决这类问题的方法是删除分发的头尾。非常常见的词(即停止词)几乎不添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。你必须小心唯一性的门槛。这是一个非常聪明的主意。谢谢你的评论。我认为它可能也适用于其他语言。你能给出你的评论作为回答吗。因此,如果没有其他好的答案,我可以接受。我解决这类问题的方法是去掉分布的头尾。非常常见的词(即停止词)几乎不添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。你必须小心唯一性的门槛。这是一个非常聪明的主意。谢谢你的评论。我认为它可能也适用于其他语言。你能给出你的评论作为回答吗。所以,如果没有其他好的答案,我可以接受。事实上,我要找的关键词是“停止单词”。当我搜索“最常用词”时,我看到了语言类:)非常感谢。是的,“停止词”不是一个会立即浮现在脑海中的术语。一个不熟悉这个词的人会怎么想呢?事实上,我要找的关键词是“停止单词”。当我搜索“最常用词”时,我看到了语言类:)非常感谢。是的,“停止词”不是一个会立即浮现在脑海中的术语。一个不熟悉这个词的人会怎么想?