类似于Twitter趋势的关键字/短语趋势搜索算法
想要一些关于建立一个工具的想法,该工具可以扫描文本句子(用英语书写)并根据文本中出现的单词或短语的最多次数建立关键字排名 这与twitter趋势非常相似,twitter检测并报告tweets中的前10个单词 我已经确定了算法中的高级步骤,如下所示类似于Twitter趋势的关键字/短语趋势搜索算法,twitter,nlp,Twitter,Nlp,想要一些关于建立一个工具的想法,该工具可以扫描文本句子(用英语书写)并根据文本中出现的单词或短语的最多次数建立关键字排名 这与twitter趋势非常相似,twitter检测并报告tweets中的前10个单词 我已经确定了算法中的高级步骤,如下所示 扫描文本并删除所有常用词(如“the”、“is”、“are”、“what”、“at”等) 将剩余的单词添加到hashmap。如果单词已经在映射中,则增加其计数 要获得前10个单词,请遍历hashmap并找出前10个计数 第2步和第3步很简单,但我不知道
提前感谢实际上,您的第一步与第三步非常相似,因为您可能首先要建立一个英语中最常用单词的绝对数据库。这样的列表在互联网上很容易找到(Wikipedia甚至有一篇文章引用了)。你可以将这些单词存储在hashmap中,在扫描文本内容时,只需忽略常用标记即可 如果你不信任维基百科和已经存在的常用词列表,你可以建立自己的数据库。为此,只需扫描数千条推文(越多越好),并制作自己的频率图 你正面临一个类似n克的问题
不要重新发明轮子。您似乎想做的事情已经做了数千次,只需使用现有的lib或代码片段(查看维基百科页面的外部链接部分。)我建议您使用。您可以使用NLP工具提供的工具,如或 注
- 蜂蜜很好不是一个短语。这是一个条款非常好是一个短语
- 在信息检索系统中,这些常用词被称为