Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/batch-file/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 将hashtag分类为主题或类别。示例:#国际足联->;体育、电子游戏_Nlp_Classification_Text Processing - Fatal编程技术网

Nlp 将hashtag分类为主题或类别。示例:#国际足联->;体育、电子游戏

Nlp 将hashtag分类为主题或类别。示例:#国际足联->;体育、电子游戏,nlp,classification,text-processing,Nlp,Classification,Text Processing,是否有一个公共API或Java库可以将Twitter标签从一个有限的集合分类为一个主题/类别 我需要根据每个twitter帖子的标签找到它们的主题。例如: /#FIFA12会将这篇文章归类为视频游戏/游戏或娱乐等。我不知道有什么API可以做到这一点,但一种方法是查看映射到维基百科标题的哈希标签。例如,维基百科中有一个“FIFA12”标题(它会重定向到另一个页面)。除非有不明确的字符串,否则您应该能够将大量的hashtag映射到Wikipedia标题 一旦你有了标题,你就可以遍历维基百科的图表并获

是否有一个公共API或Java库可以将Twitter标签从一个有限的集合分类为一个主题/类别

我需要根据每个twitter帖子的标签找到它们的主题。例如:


/#FIFA12会将这篇文章归类为视频游戏/游戏或娱乐等。

我不知道有什么API可以做到这一点,但一种方法是查看映射到维基百科标题的哈希标签。例如,维基百科中有一个“FIFA12”标题(它会重定向到另一个页面)。除非有不明确的字符串,否则您应该能够将大量的hashtag映射到Wikipedia标题

一旦你有了标题,你就可以遍历维基百科的图表并获得父子类别关系。例如,在维基百科中,FIFA12分为以下几类

2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
IOS games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011 
每个类别都会有更多的家长。例如,“2011年电子游戏”的家长

2011 works
21st-century video games
2011 in video gaming
2011 software

您可能可以在广度优先搜索的每个级别使用带有阈值(例如2+)的“多数投票”,以减少需要分析的节点数。在某个时刻,你可以想出一个启发式停止。例如,“视频游戏”类别距离FIFA12有三跳之遥,可通过多条路径访问。提出最佳启发式并不简单,但这里有一些很容易实现的结果。

我不知道有什么API可以做到这一点,但一种方法是查看映射到维基百科标题的哈希标记。例如,维基百科中有一个“FIFA12”标题(它会重定向到另一个页面)。除非有不明确的字符串,否则您应该能够将大量的hashtag映射到Wikipedia标题

一旦你有了标题,你就可以遍历维基百科的图表并获得父子类别关系。例如,在维基百科中,FIFA12分为以下几类

2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
IOS games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011 
每个类别都会有更多的家长。例如,“2011年电子游戏”的家长

2011 works
21st-century video games
2011 in video gaming
2011 software

您可能可以在广度优先搜索的每个级别使用带有阈值(例如2+)的“多数投票”,以减少需要分析的节点数。在某个时刻,你可以想出一个启发式停止。例如,“视频游戏”类别距离FIFA12有三跳之遥,可通过多条路径访问。提出最佳启发式并非易事,但这里有一些很容易实现的成果。

如果没有,听起来像是一个有趣的项目。你可以为每个tweet构建一个单词向量包,将向量聚类成k个簇,然后,对于同一簇中的tweet,假设这些tweet中的hashtag组成一个类别。当然,您必须手动命名类别。谢谢您的回复!,你能举个简单的例子吗。谢谢如果没有的话,听起来是个有趣的项目。你可以为每个tweet构建一个单词向量包,将向量聚类成k个簇,然后,对于同一簇中的tweet,假设这些tweet中的hashtag组成一个类别。当然,您必须手动命名类别。谢谢您的回复!,你能举个简单的例子吗。谢谢这是一个很好的方法,唯一的问题是不是所有的hashtag都有相应的wiki页面。这是正确的。然而,如果你把一个标签广义地看作一个“概念”,那么考虑到维基百科有数百万个概念,这个交集应该是巨大的。这是一个很好的方法,唯一的问题是不是所有的标签都有相应的维基页面。这是正确的。然而,如果你把标签广义地看作一个“概念”,那么考虑到维基百科有数百万个概念,这个交叉点应该是巨大的。