Nlp 训练集-pos/neg/neutral语句的比例_Nlp_Semantic Markup_Nltk_Semantic Analysis

Nlp 训练集-pos/neg/neutral语句的比例

nlp

Nlp 训练集-pos/neg/neutral语句的比例,nlp,semantic-markup,nltk,semantic-analysis,Nlp,Semantic Markup,Nltk,Semantic Analysis,我将推特上的信息标记为积极、消极、中立。我试着去理解，是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的例如，如果我正在训练一个朴素贝叶斯分类器，它包含1000条推特消息，那么pos:neg:neutral的比例应该是33%：33%：33%，还是应该是25%：25%：50% 从逻辑上讲，在我的头脑中，我似乎在训练（即为中性句提供更多样本）系统会更好地识别中性句，然后判断它们是肯定的还是否定的-这是真的吗？或者我在这里遗漏了一些理论谢谢拉胡尔还有许多其他因素。。。但重要的一点

我将推特上的信息标记为积极、消极、中立。我试着去理解，是否有一些逻辑可以用来确定训练集的哪些部分应该是积极/消极和中立的

例如，如果我正在训练一个朴素贝叶斯分类器，它包含1000条推特消息，那么pos:neg:neutral的比例应该是33%：33%：33%，还是应该是25%：25%：50%

从逻辑上讲，在我的头脑中，我似乎在训练（即为中性句提供更多样本）系统会更好地识别中性句，然后判断它们是肯定的还是否定的-这是真的吗？或者我在这里遗漏了一些理论

谢谢

拉胡尔

还有许多其他因素。。。但重要的一点（在确定合适的比率和训练数据量时）是现实世界中每个消息类别（正、中性、负）的预期分布。实际上，训练集（和控制集）的良好基线是

[定性]尽可能代表整个“人口”

[定量]足够大，从这些集合中进行的测量具有统计意义

训练集中某类信息的[相对]丰度的影响很难确定；在任何情况下，它都是一个较小的因素——或者说是对其他因素高度敏感的因素。分类器准确度的提高，作为一个整体，或关于一个特定类别，通常更多地与分类器的具体实现联系在一起（例如，是否是贝叶斯的，标记是什么，噪声标记是否被消除，接近度是一个因素，我们是否使用双图等）而不是训练集的纯数量特征
虽然上述内容通常是事实性的，但对选择训练集的大小和组成有一定帮助，但有一些方法可以事后确定何时提供了足够的训练数据大小和组成。
实现这一点的一种方法是引入一个控制集，即一个手动标记但不属于训练集的控制集，并使用训练集的不同子集测量不同测试运行的召回率和精确度（或一些类似的精确度测量），为此，控制集的分类。当这些测量值没有改善或降低，超出统计代表性时，训练[sub-]集的大小和组成可能是正确的（除非它是一个过拟合集：-（，但这完全是另一个问题…）

这种方法意味着使用的训练集可能是实际需要的训练子集大小的3到5倍，因此可以随机（在每个类别内）构建，用于各种测试的许多不同子集。

您所指的问题称为不平衡问题。许多机器学习算法在遇到不平衡的训练数据时表现不佳，即当一个类的实例数量远远超过另一个类的实例时。请阅读以获得对该问题的良好概述以及o接近它。对于像朴素贝叶斯或决策树这样的技术，以某种方式平衡数据总是一个好主意，例如通过随机过采样（在参考文献中解释）。我不同意mjv的建议，即让训练集与现实世界中的比例相匹配。这在某些情况下可能是合适的，但我很有信心它不在您的设置中。对于您描述的分类问题，类集的大小差异越大，大多数ML算法在区分方面就越有问题但是，您始终可以使用关于哪个类在实际中最大的信息，将其作为回退，这样当分类器对特定实例的置信度较低或该实例根本无法分类时，您将为其分配最大的类

还有一句话：在我看来，找到推特消息中的积极性/消极性/中立性似乎是一个程度问题。因此，这可能被视为一个回归问题，而不是一个分类问题，也就是说，你可能需要计算一个分数，告诉你消息的积极性/消极性。

你认为呢有一个我可以参考的链接，可以为我提供一个计算分数的例子，或者背后的理论？如果你搜索“线性回归”，你会发现很多网站都致力于此。也许你也想看看这项关于情绪分析的调查（该领域的官方名称几乎完全用于计算文本的正反两个方面）：。这本书可以在网上免费获得。