Apache spark 与音乐相关的twitter数据情感分析功能_Apache Spark_Twitter_Nlp_Classification_Sentiment Analysis

Apache spark 与音乐相关的twitter数据情感分析功能

apache-spark twitter nlp

Apache spark 与音乐相关的twitter数据情感分析功能,apache-spark,twitter,nlp,classification,sentiment-analysis,Apache Spark,Twitter,Nlp,Classification,Sentiment Analysis,需要一些关于spark音乐相关推特情感分析的指导我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后，我了解了如何使用“tweepy”python api获取推文，并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑，我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API，比如“textblob”，来发现tweet的情绪 1）有人能举一些我们可以用来分类音乐相关推文的功能的例子吗？ [我们可以

需要一些关于spark音乐相关推特情感分析的指导

我试着在推特数据上对与音乐相关的推特进行情感分析。在网络上进行了大量搜索之后，我了解了如何使用“tweepy”python api获取推文，并意识到我可以使用“Naive Bayes分类器”最终对推文进行分类。现在我对如何定义这个分类的特征感到困惑，我应该定义至少500个特征。下面是我的问题。我不想使用任何已经可用的API，比如“textblob”，来发现tweet的情绪

1）有人能举一些我们可以用来分类音乐相关推文的功能的例子吗？ [我们可以将带着快乐笑容的推文用作积极的训练集吗？如果可以，这些推文中的文字是否适合我的分类器？]

2）我们如何为这个分类器生成训练集

3）如果我想过滤与音乐相关的推文，我可以使用Bloom filter来实现吗

4）我可以通过tweepy api获得的数据大小是多少

如果我的理解有问题，请纠正。

由于情绪分析是监督任务，您应该有一个培训（和测试）集。在培训集中，您需要人类（通常称为专家）经常给出的标签（在情绪分析中：积极、消极）。训练集中不存在数量惊人的实例（我使用了1k5记录）。但如果你需要科学证据，你应该分析模型的均方误差（MSE）与训练集大小的函数关系

1）最常见的方法是TF-IDF。它对最好的特征（还有微笑和其他符号）进行排序。您只需要设置功能的数量。同样，没有最佳数字，您应该进行测试以优化您的模型

2）你需要一个训练集，每个tweet都有标签（肯定或否定）。一般来说，它是由人类注释者获得的

3）我从来没有用过布卢姆过滤器

4）一般来说，tweetapi只提供了所有Tweet的1-2%。我猜特威皮给你的就不止这些了

我希望这能帮助你