Text Twitter主观性训练集

Text Twitter主观性训练集,text,twitter,nlp,classification,training-data,Text,Twitter,Nlp,Classification,Training Data,我需要一个可靠和准确的方法来过滤主观或客观的推特。换句话说,我需要使用一个训练集在Weka中构建一个过滤器 是否有可用的培训集可作为Twitter消息或其他可转移领域的主观/客观分类器?出于研究和非营利目的,SentiWordNet为您提供您想要的内容。还有商业许可证 SentiWordNet: Jave代码示例: 相关文件: 我会尝试的另一种方法是: 范例 推文1:@xyz你应该去看看黑暗骑士。这是一种敬畏 1) 首先,查找字典,查找词义 “u”和“aweme”不会返回任何内容 2) 然后与

我需要一个可靠和准确的方法来过滤主观或客观的推特。换句话说,我需要使用一个训练集在Weka中构建一个过滤器


是否有可用的培训集可作为Twitter消息或其他可转移领域的主观/客观分类器?

出于研究和非营利目的,SentiWordNet为您提供您想要的内容。还有商业许可证

SentiWordNet:

Jave代码示例:

相关文件:


我会尝试的另一种方法是:

范例

推文1:@xyz你应该去看看黑暗骑士。这是一种敬畏

1) 首先,查找字典,查找词义

“u”和“aweme”不会返回任何内容

2) 然后与已知的缩写/速记相反,用扩展替换匹配项 (部分资源:netlingo或smsdictionary)

现在,原始tweet看起来像:

推特1:@xyz你应该去看看黑暗骑士。这是一种敬畏

3) 然后将剩下的单词输入拼写检查器,并用最匹配的单词替换(对于小词来说,并不总是理想且容易出错)

相关链接:

现在,原始tweet看起来像:

推特1:@xyz你应该去看看黑暗骑士。太棒了

4) 将tweet拆分并馈送到SWN3,聚合结果

这种方法的问题在于

a) 否定应在SWN3之外处理


b) 表情符号和夸张标点符号中的信息将丢失或需要单独处理。

出于研究和非盈利目的,SentiWordNet为您提供了您想要的信息。还有商业许可证

SentiWordNet:

Jave代码示例:

相关文件:


我会尝试的另一种方法是:

范例

推文1:@xyz你应该去看看黑暗骑士。这是一种敬畏

1) 首先,查找字典,查找词义

“u”和“aweme”不会返回任何内容

2) 然后与已知的缩写/速记相反,用扩展替换匹配项 (部分资源:netlingo或smsdictionary)

现在,原始tweet看起来像:

推特1:@xyz你应该去看看黑暗骑士。这是一种敬畏

3) 然后将剩下的单词输入拼写检查器,并用最匹配的单词替换(对于小词来说,并不总是理想且容易出错)

相关链接:

现在,原始tweet看起来像:

推特1:@xyz你应该去看看黑暗骑士。太棒了

4) 将tweet拆分并馈送到SWN3,聚合结果

这种方法的问题在于

a) 否定应在SWN3之外处理


b) 表情符号和夸张标点符号中的信息将丢失或需要单独处理。

CMU某处有情绪训练数据。我记不起链接了。CMU在twitter和情绪分析方面做了很多工作:

我为twitter编写了一个英语与非英语朴素贝叶斯分类器,并制作了~示例开发/测试集,准确率为98%。我认为,如果你只是想了解问题,这类事情总是很好的,但是像SentiWordNet这样的软件包可能会给你一个领先的开始

问题在于如何定义推特的主客观特征!重要的是要理解,机器学习与算法无关,而与数据质量有关


你提到75%的准确率是你所需要的。。。。召回怎么办?如果您提供正确的培训数据,您可能能够以更低的召回率为代价获得这些数据

CMU某处有情绪训练数据。我记不起链接了。CMU在twitter和情绪分析方面做了很多工作:

我为twitter编写了一个英语与非英语朴素贝叶斯分类器,并制作了~示例开发/测试集,准确率为98%。我认为,如果你只是想了解问题,这类事情总是很好的,但是像SentiWordNet这样的软件包可能会给你一个领先的开始

问题在于如何定义推特的主客观特征!重要的是要理解,机器学习与算法无关,而与数据质量有关


你提到75%的准确率是你所需要的。。。。召回怎么办?如果您提供了正确的培训数据,您可能能够获得这些数据,而代价是召回率更低

LingPipe中的
DynamicLMClassifier
工作得很好


LingPipe中的
动态分类系统
工作得非常好


因为客观twitter没有客观的定义,所以你找不到预先存在的培训集。twitter上发布了主观和客观的信息。。。虽然训练集可能不适合所有消息,但75%以上的准确度就足够了。。。我想你不明白这里的目标。。。。例如,您可能有正面、负面和中性的推文。我想确定哪些推特是正面的/负面的,哪些是中性的…只是一个简短的评论:客观!=中立的一个很好的例子是:德尔芬是一条鱼。这是对Delphin的一种中立和主观的观点。因为客观twitter没有客观的定义,所以你不会找到一个预先存在的培训集。twitter上发布了主观和客观的信息。。。虽然训练集可能不适合所有消息,但75%以上的准确度就足够了。。。我想你不明白这里的目标。。。。例如,您可能有正面、负面和中性的推文。我想确定哪些推特是正面的/负面的,哪些是中性的…只是一个简短的评论:客观!=中立的一个很好的例子是:德尔芬是一条鱼。这是一个中立和公正的立场