Nlp 训练集-pos/neg/neutral语句的比例
我将推特上的信息标记为积极、消极、中立。我试着去理解,是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的 例如,如果我正在训练一个朴素贝叶斯分类器,它包含1000条推特消息,那么pos:neg:neutral的比例应该是33%:33%:33%,还是应该是25%:25%:50% 从逻辑上讲,在我的头脑中,我似乎在训练(即为中性句提供更多样本)系统会更好地识别中性句,然后判断它们是肯定的还是否定的-这是真的吗?或者我在这里遗漏了一些理论 谢谢Nlp 训练集-pos/neg/neutral语句的比例,nlp,semantic-markup,nltk,semantic-analysis,Nlp,Semantic Markup,Nltk,Semantic Analysis,我将推特上的信息标记为积极、消极、中立。我试着去理解,是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的 例如,如果我正在训练一个朴素贝叶斯分类器,它包含1000条推特消息,那么pos:neg:neutral的比例应该是33%:33%:33%,还是应该是25%:25%:50% 从逻辑上讲,在我的头脑中,我似乎在训练(即为中性句提供更多样本)系统会更好地识别中性句,然后判断它们是肯定的还是否定的-这是真的吗?或者我在这里遗漏了一些理论 谢谢 拉胡尔还有许多其他因素。。。但重要的一点
拉胡尔还有许多其他因素。。。但重要的一点(在确定合适的比率和训练数据量时)是现实世界中每个消息类别(正、中性、负)的预期分布。实际上,训练集(和控制集)的良好基线是
- [定性]尽可能代表整个“人口”
- [定量]足够大,从这些集合中进行的测量具有统计意义
实现这一点的一种方法是引入一个控制集,即一个手动标记但不属于训练集的控制集,并使用训练集的不同子集测量不同测试运行的召回率和精确度(或一些类似的精确度测量),为此,控制集的分类。当这些测量值没有改善或降低,超出统计代表性时,训练[sub-]集的大小和组成可能是正确的(除非它是一个过拟合集:-(,但这完全是另一个问题…)
这种方法意味着使用的训练集可能是实际需要的训练子集大小的3到5倍,因此可以随机(在每个类别内)构建,用于各种测试的许多不同子集。您所指的问题称为不平衡问题。许多机器学习算法在遇到不平衡的训练数据时表现不佳,即当一个类的实例数量远远超过另一个类的实例时。请阅读以获得对该问题的良好概述以及o接近它。对于像朴素贝叶斯或决策树这样的技术,以某种方式平衡数据总是一个好主意,例如通过随机过采样(在参考文献中解释)。我不同意mjv的建议,即让训练集与现实世界中的比例相匹配。这在某些情况下可能是合适的,但我很有信心它不在您的设置中。对于您描述的分类问题,类集的大小差异越大,大多数ML算法在区分方面就越有问题但是,您始终可以使用关于哪个类在实际中最大的信息,将其作为回退,这样当分类器对特定实例的置信度较低或该实例根本无法分类时,您将为其分配最大的类
还有一句话:在我看来,找到推特消息中的积极性/消极性/中立性似乎是一个程度问题。因此,这可能被视为一个回归问题,而不是一个分类问题,也就是说,你可能需要计算一个分数,告诉你消息的积极性/消极性。你认为呢有一个我可以参考的链接,可以为我提供一个计算分数的例子,或者背后的理论?如果你搜索“线性回归”,你会发现很多网站都致力于此。也许你也想看看这项关于情绪分析的调查(该领域的官方名称几乎完全用于计算文本的正反两个方面):。这本书可以在网上免费获得。