Nlp 有博客的英文停止词列表吗?

Nlp 有博客的英文停止词列表吗?,nlp,web-crawler,stop-words,Nlp,Web Crawler,Stop Words,我正在博客上分析他们的内容。我用的是基本的英语停止词列表,但这还不够,因为博客中经常出现一些无用的词,比如“归档”、“评论”等等。你知道预先创建的针对博客的停止词列表吗?我找不到任何这样的资源。最好的方法是计算文档集合中最频繁的单词(比如1000个),并将其中的一个子集(比如200个)设置为stopwords。你也可以改变这个截止参数(比如100或300而不是200)来查看对检索性能的影响。也考虑使用(例如)TF IDF或日志熵,因为一些频繁的单词可能仍然被认为是有用的分析。

我正在博客上分析他们的内容。我用的是基本的英语停止词列表,但这还不够,因为博客中经常出现一些无用的词,比如“归档”、“评论”等等。你知道预先创建的针对博客的停止词列表吗?

我找不到任何这样的资源。最好的方法是计算文档集合中最频繁的单词(比如1000个),并将其中的一个子集(比如200个)设置为stopwords。你也可以改变这个截止参数(比如100或300而不是200)来查看对检索性能的影响。

也考虑使用(例如)TF IDF或日志熵,因为一些频繁的单词可能仍然被认为是有用的分析。