Nlp 训练集-pos/neg/neutral语句的比例

Nlp 训练集-pos/neg/neutral语句的比例,nlp,semantic-markup,nltk,semantic-analysis,Nlp,Semantic Markup,Nltk,Semantic Analysis,我将推特上的信息标记为积极、消极、中立。我试着去理解,是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的 例如,如果我正在训练一个朴素贝叶斯分类器,它包含1000条推特消息,那么pos:neg:neutral的比例应该是33%:33%:33%,还是应该是25%:25%:50% 从逻辑上讲,在我的头脑中,我似乎在训练(即为中性句提供更多样本)系统会更好地识别中性句,然后判断它们是肯定的还是否定的-这是真的吗?或者我在这里遗漏了一些理论 谢谢 拉胡尔还有许多其他因素。。。但重要的一点

我将推特上的信息标记为积极、消极、中立。我试着去理解,是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的

例如,如果我正在训练一个朴素贝叶斯分类器,它包含1000条推特消息,那么pos:neg:neutral的比例应该是33%:33%:33%,还是应该是25%:25%:50%

从逻辑上讲,在我的头脑中,我似乎在训练(即为中性句提供更多样本)系统会更好地识别中性句,然后判断它们是肯定的还是否定的-这是真的吗?或者我在这里遗漏了一些理论

谢谢
拉胡尔

还有许多其他因素。。。但重要的一点(在确定合适的比率和训练数据量时)是现实世界中每个消息类别(正、中性、负)的预期分布。实际上,训练集(和控制集)的良好基线是

  • [定性]尽可能代表整个“人口”
  • [定量]足够大,从这些集合中进行的测量具有统计意义
训练集中某类信息的[相对]丰度的影响很难确定;在任何情况下,它都是一个较小的因素——或者说是对其他因素高度敏感的因素。分类器准确度的提高,作为一个整体,或关于一个特定类别,通常更多地与分类器的具体实现联系在一起(例如,是否是贝叶斯的,标记是什么,噪声标记是否被消除,接近度是一个因素,我们是否使用双图等)而不是训练集的纯数量特征

虽然上述内容通常是事实性的,但对选择训练集的大小和组成有一定帮助,但有一些方法可以事后确定何时提供了足够的训练数据大小和组成。

实现这一点的一种方法是引入一个控制集,即一个手动标记但不属于训练集的控制集,并使用训练集的不同子集测量不同测试运行的召回率和精确度(或一些类似的精确度测量),为此,控制集的分类。当这些测量值没有改善或降低,超出统计代表性时,训练[sub-]集的大小和组成可能是正确的(除非它是一个过拟合集:-(,但这完全是另一个问题…)


这种方法意味着使用的训练集可能是实际需要的训练子集大小的3到5倍,因此可以随机(在每个类别内)构建,用于各种测试的许多不同子集。

您所指的问题称为不平衡问题。许多机器学习算法在遇到不平衡的训练数据时表现不佳,即当一个类的实例数量远远超过另一个类的实例时。请阅读以获得对该问题的良好概述以及o接近它。对于像朴素贝叶斯或决策树这样的技术,以某种方式平衡数据总是一个好主意,例如通过随机过采样(在参考文献中解释)。我不同意mjv的建议,即让训练集与现实世界中的比例相匹配。这在某些情况下可能是合适的,但我很有信心它不在您的设置中。对于您描述的分类问题,类集的大小差异越大,大多数ML算法在区分方面就越有问题但是,您始终可以使用关于哪个类在实际中最大的信息,将其作为回退,这样当分类器对特定实例的置信度较低或该实例根本无法分类时,您将为其分配最大的类


还有一句话:在我看来,找到推特消息中的积极性/消极性/中立性似乎是一个程度问题。因此,这可能被视为一个回归问题,而不是一个分类问题,也就是说,你可能需要计算一个分数,告诉你消息的积极性/消极性。

你认为呢有一个我可以参考的链接,可以为我提供一个计算分数的例子,或者背后的理论?如果你搜索“线性回归”,你会发现很多网站都致力于此。也许你也想看看这项关于情绪分析的调查(该领域的官方名称几乎完全用于计算文本的正反两个方面):。这本书可以在网上免费获得。