Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 我应该删除带有词性标记的停止词吗?_Nlp_Stemming_Chunking_Pos Tagger - Fatal编程技术网

Nlp 我应该删除带有词性标记的停止词吗?

Nlp 我应该删除带有词性标记的停止词吗?,nlp,stemming,chunking,pos-tagger,Nlp,Stemming,Chunking,Pos Tagger,我对NLP是个新手,但是我看到的所有词性标注和句子组块的例子似乎都没有删除单词。所以,如果我在做词性标注和组块,我的问题是,这是否消除了删除停止词(以及词干)的需要?如果没有更多的上下文解释您试图完成的任务,绝对没有理由删除停止词。大多数需要POS标签的应用程序都需要为所有输入文本(包括停止词)添加POS标签。抱歉,我继承了一个基于主题分类的文本分析引擎。据我所知,它既不使用停止词也不使用词性标记,我正在a)尝试了解各种NLP组件(标记化、词干分析器、柠檬化、标记器、分块器等)如何协同工作(或不

我对NLP是个新手,但是我看到的所有词性标注和句子组块的例子似乎都没有删除单词。所以,如果我在做词性标注和组块,我的问题是,这是否消除了删除停止词(以及词干)的需要?

如果没有更多的上下文解释您试图完成的任务,绝对没有理由删除停止词。大多数需要POS标签的应用程序都需要为所有输入文本(包括停止词)添加POS标签。

抱歉,我继承了一个基于主题分类的文本分析引擎。据我所知,它既不使用停止词也不使用词性标记,我正在a)尝试了解各种NLP组件(标记化、词干分析器、柠檬化、标记器、分块器等)如何协同工作(或不协同工作),以及b)了解我们是否应该使用其中一些概念来改进分类匹配。谢谢你的回答,这很有帮助,也证实了我迄今为止的想法,没有什么值得道歉的。如果这个答案帮助你解决你的问题,请考虑接受它(点击答案标记下面的答案的大选票计数,如果你改变主意,你可以不知道它)。词干和停止词是“煮沸”文本到某种简化表示的技术,并且经常被用于搜索相关的任务。词性标注增加了更多信息,例如语法分析。从这个意义上说,,这些技术是相反的。谢谢,这也有助于分配并证实了我的怀疑,即该应用程序实际上做了两件不同但相关的事情,即基于搜索的简单关键字分类和基于NLP的分类主题,如情绪。将此问题展开是不礼貌的,还是我应该提出另一个问题问题,请列出NLP中适用于搜索的过程技术(标记化、拼写检查、同义词表、N-Grams、词干分析、引理化、词汇链接等),以及适用于基于主题的分类(标记、句子组块、机器学习等)的过程技术,每个管道中的步骤顺序,以及两个不同管道如何相互作用?在过去的3-4周里,我读了很多关于这个主题的书,但没有看到任何能很好地概括这个主题的东西,比如搜索和NLP。