Text Twitter主观性训练集_Text_Twitter_Nlp_Classification_Training Data

Text Twitter主观性训练集

text twitter nlp

Text Twitter主观性训练集,text,twitter,nlp,classification,training-data,Text,Twitter,Nlp,Classification,Training Data,我需要一个可靠和准确的方法来过滤主观或客观的推特。换句话说，我需要使用一个训练集在Weka中构建一个过滤器是否有可用的培训集可作为Twitter消息或其他可转移领域的主观/客观分类器？出于研究和非营利目的，SentiWordNet为您提供您想要的内容。还有商业许可证 SentiWordNet： Jave代码示例：相关文件：我会尝试的另一种方法是：范例推文1:@xyz你应该去看看黑暗骑士。这是一种敬畏 1）首先，查找字典，查找词义 “u”和“aweme”不会返回任何内容 2）然后与

我需要一个可靠和准确的方法来过滤主观或客观的推特。换句话说，我需要使用一个训练集在Weka中构建一个过滤器

是否有可用的培训集可作为Twitter消息或其他可转移领域的主观/客观分类器？

出于研究和非营利目的，SentiWordNet为您提供您想要的内容。还有商业许可证

SentiWordNet：

Jave代码示例：

相关文件：

我会尝试的另一种方法是：

范例

推文1:@xyz你应该去看看黑暗骑士。这是一种敬畏

1）首先，查找字典，查找词义

“u”和“aweme”不会返回任何内容

2）然后与已知的缩写/速记相反，用扩展替换匹配项（部分资源：netlingo或smsdictionary）

现在，原始tweet看起来像：

4）将tweet拆分并馈送到SWN3，聚合结果

这种方法的问题在于

a）否定应在SWN3之外处理

b）表情符号和夸张标点符号中的信息将丢失或需要单独处理。

CMU某处有情绪训练数据。我记不起链接了。CMU在twitter和情绪分析方面做了很多工作：

我为twitter编写了一个英语与非英语朴素贝叶斯分类器，并制作了~示例开发/测试集，准确率为98%。我认为，如果你只是想了解问题，这类事情总是很好的，但是像SentiWordNet这样的软件包可能会给你一个领先的开始

问题在于如何定义推特的主客观特征！重要的是要理解，机器学习与算法无关，而与数据质量有关

你提到75%的准确率是你所需要的。。。。召回怎么办？如果您提供正确的培训数据，您可能能够以更低的召回率为代价获得这些数据

CMU某处有情绪训练数据。我记不起链接了。CMU在twitter和情绪分析方面做了很多工作：

问题在于如何定义推特的主客观特征！重要的是要理解，机器学习与算法无关，而与数据质量有关

你提到75%的准确率是你所需要的。。。。召回怎么办？如果您提供了正确的培训数据，您可能能够获得这些数据，而代价是召回率更低

LingPipe中的

DynamicLMClassifier

工作得很好

LingPipe中的

动态分类系统

工作得非常好

因为客观twitter没有客观的定义，所以你找不到预先存在的培训集。twitter上发布了主观和客观的信息。。。虽然训练集可能不适合所有消息，但75%以上的准确度就足够了。。。我想你不明白这里的目标。。。。例如，您可能有正面、负面和中性的推文。我想确定哪些推特是正面的/负面的，哪些是中性的…只是一个简短的评论：客观！=中立的一个很好的例子是：德尔芬是一条鱼。这是对Delphin的一种中立和主观的观点。因为客观twitter没有客观的定义，所以你不会找到一个预先存在的培训集。twitter上发布了主观和客观的信息。。。虽然训练集可能不适合所有消息，但75%以上的准确度就足够了。。。我想你不明白这里的目标。。。。例如，您可能有正面、负面和中性的推文。我想确定哪些推特是正面的/负面的，哪些是中性的…只是一个简短的评论：客观！=中立的一个很好的例子是：德尔芬是一条鱼。这是一个中立和公正的立场