Twitter 推特上有停止使用的单词列表吗?

Twitter 推特上有停止使用的单词列表吗?,twitter,nlp,data-mining,Twitter,Nlp,Data Mining,我想在推特上做一些挖掘。对于推特,是否有更具体的停止词列表,例如删除“lol”和其他推特笑脸?我不知道推特特定的停止词列表,但通常只从分析中删除n个最常见的词,例如,n可以是100。取决于你想做什么,笑脸可能会提供非常相关的信息。我想你应该将普通的停止词列表,如或,与特定的首字母缩略词词典合并,例如,或,或(最后一个似乎是最容易解析的,见注释).我不知道具体的停止词列表,但您可以在此处获得最常用单字的列表: (下载en.1grams.gz) 要检测并忽略微笑,请使用: 您还可能发现这些工具很有用

我想在推特上做一些挖掘。对于推特,是否有更具体的停止词列表,例如删除“lol”和其他推特笑脸?

我不知道推特特定的停止词列表,但通常只从分析中删除n个最常见的词,例如,n可以是100。取决于你想做什么,笑脸可能会提供非常相关的信息。

我想你应该将普通的停止词列表,如或,与特定的首字母缩略词词典合并,例如,或,或(最后一个似乎是最容易解析的,见注释).

我不知道具体的停止词列表,但您可以在此处获得最常用单字的列表: (下载en.1grams.gz)

要检测并忽略微笑,请使用:

您还可能发现这些工具很有用: (如果要分割哈希标记)
(如果您没有)

我正在对推特数据进行检索。我认为微笑对我的检索工作来说毫无意义。谢谢你的回答~