Apache spark 与音乐相关的twitter数据情感分析功能
需要一些关于spark音乐相关推特情感分析的指导 我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后,我了解了如何使用“tweepy”python api获取推文,并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑,我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API,比如“textblob”,来发现tweet的情绪 1) 有人能举一些我们可以用来分类音乐相关推文的功能的例子吗? [我们可以将带着快乐笑容的推文用作积极的训练集吗?如果可以,这些推文中的文字是否适合我的分类器?] 2) 我们如何为这个分类器生成训练集 3) 如果我想过滤与音乐相关的推文,我可以使用Bloom filter来实现吗 4) 我可以通过tweepy api获得的数据大小是多少Apache spark 与音乐相关的twitter数据情感分析功能,apache-spark,twitter,nlp,classification,sentiment-analysis,Apache Spark,Twitter,Nlp,Classification,Sentiment Analysis,需要一些关于spark音乐相关推特情感分析的指导 我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后,我了解了如何使用“tweepy”python api获取推文,并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑,我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API,比如“textblob”,来发现tweet的情绪 1) 有人能举一些我们可以用来分类音乐相关推文的功能的例子吗? [我们可以
如果我的理解有问题,请纠正。由于情绪分析是监督任务,您应该有一个培训(和测试)集。在培训集中,您需要人类(通常称为专家)经常给出的标签(在情绪分析中:积极、消极)。训练集中不存在数量惊人的实例(我使用了1k5记录)。但如果你需要科学证据,你应该分析模型的均方误差(MSE)与训练集大小的函数关系 1) 最常见的方法是TF-IDF。它对最好的特征(还有微笑和其他符号)进行排序。您只需要设置功能的数量。同样,没有最佳数字,您应该进行测试以优化您的模型 2) 你需要一个训练集,每个tweet都有标签(肯定或否定)。一般来说,它是由人类注释者获得的 3) 我从来没有用过布卢姆过滤器 4) 一般来说,tweetapi只提供了所有Tweet的1-2%。我猜特威皮给你的就不止这些了 我希望这能帮助你