Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 与音乐相关的twitter数据情感分析功能_Apache Spark_Twitter_Nlp_Classification_Sentiment Analysis - Fatal编程技术网

Apache spark 与音乐相关的twitter数据情感分析功能

Apache spark 与音乐相关的twitter数据情感分析功能,apache-spark,twitter,nlp,classification,sentiment-analysis,Apache Spark,Twitter,Nlp,Classification,Sentiment Analysis,需要一些关于spark音乐相关推特情感分析的指导 我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后,我了解了如何使用“tweepy”python api获取推文,并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑,我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API,比如“textblob”,来发现tweet的情绪 1) 有人能举一些我们可以用来分类音乐相关推文的功能的例子吗? [我们可以

需要一些关于spark音乐相关推特情感分析的指导

我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后,我了解了如何使用“tweepy”python api获取推文,并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑,我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API,比如“textblob”,来发现tweet的情绪

1) 有人能举一些我们可以用来分类音乐相关推文的功能的例子吗? [我们可以将带着快乐笑容的推文用作积极的训练集吗?如果可以,这些推文中的文字是否适合我的分类器?]

2) 我们如何为这个分类器生成训练集

3) 如果我想过滤与音乐相关的推文,我可以使用Bloom filter来实现吗

4) 我可以通过tweepy api获得的数据大小是多少


如果我的理解有问题,请纠正。

由于情绪分析是监督任务,您应该有一个培训(和测试)集。在培训集中,您需要人类(通常称为专家)经常给出的标签(在情绪分析中:积极、消极)。训练集中不存在数量惊人的实例(我使用了1k5记录)。但如果你需要科学证据,你应该分析模型的均方误差(MSE)与训练集大小的函数关系

1) 最常见的方法是TF-IDF。它对最好的特征(还有微笑和其他符号)进行排序。您只需要设置功能的数量。同样,没有最佳数字,您应该进行测试以优化您的模型

2) 你需要一个训练集,每个tweet都有标签(肯定或否定)。一般来说,它是由人类注释者获得的

3) 我从来没有用过布卢姆过滤器

4) 一般来说,tweetapi只提供了所有Tweet的1-2%。我猜特威皮给你的就不止这些了

我希望这能帮助你