Nlp 文本分类的训练样本数_Nlp_Text Classification_Spacy

Nlp 文本分类的训练样本数

nlp

Nlp 文本分类的训练样本数,nlp,text-classification,spacy,Nlp,Text Classification,Spacy,假设您在客户和人工代理之间有一组转录的客户服务呼叫，其中每个呼叫的平均长度为7分钟。客户大多会因为产品出现问题而打电话。让我们假设一个人可以为每次呼叫的每个轴分配一个标签：轴1：从客户的角度来看，问题是什么轴2：从代理的角度来看，问题是什么 Axis 3：代理能否解决客户的问题基于手动标记的文本，您需要训练一个文本分类器，该分类器将预测三个轴中每个轴的每次调用的标签。但是唱片的标签需要时间和金钱。另一方面，您需要一定量的训练数据才能获得良好的预测结果鉴于上述假设，您会从多少手动标记的

假设您在客户和人工代理之间有一组转录的客户服务呼叫，其中每个呼叫的平均长度为7分钟。客户大多会因为产品出现问题而打电话。让我们假设一个人可以为每次呼叫的每个轴分配一个标签：

轴1：从客户的角度来看，问题是什么
轴2：从代理的角度来看，问题是什么
Axis 3：代理能否解决客户的问题

基于手动标记的文本，您需要训练一个文本分类器，该分类器将预测三个轴中每个轴的每次调用的标签。但是唱片的标签需要时间和金钱。另一方面，您需要一定量的训练数据才能获得良好的预测结果

鉴于上述假设，您会从多少手动标记的培训文本开始？你怎么知道你需要更多的培训教材

也许你以前也做过类似的工作，可以提供一些建议

更新（2018-01-19）：我的问题没有正确或错误的答案。好的，理想情况下，有人做了完全相同的任务，但这不太可能。我会把这个问题再留一个星期，然后接受最好的答案。

这个问题很难回答，但我会根据我的经验尽最大努力

在过去，我对3个数据集进行了文本分类；括号中的数字表示我的数据集有多大：餐厅评论（5万句）、reddit评论（25万句）和问题跟踪系统的开发者评论（10万句）。它们每个都有多个标签

在这三个案例中，包括一个10万句的案例，我的F1分数都超过了80%。我特别强调这个数据集，因为有人告诉我，这个数据集的大小更小

因此，在您的情况下，假设您至少有1000个平均7分钟通话的实例（包括客户和代理之间的对话），这应该是一个不错的开始。如果结果不令人满意，您可以选择以下选项：

1）使用不同的模型（MNB、随机林、决策树等，以及您正在使用的模型）

2）如果第1点给出了或多或少类似的结果，请检查您拥有的所有类的实例比率（您在这里讨论的3轴）。如果它们的比例不好，请获取更多数据，如果无法获取更多数据，请尝试不同的方法

3）另一种方法是在句子级别而不是消息或会话级别对它们进行分类，以便为句子生成更多的数据和单独的标签，而不是消息或会话本身