Classification 在没有培训数据的情况下，如何对聊天文本进行分类？_Classification_Opennlp_Categorization

Classification 在没有培训数据的情况下，如何对聊天文本进行分类？

Classification 在没有培训数据的情况下，如何对聊天文本进行分类？,classification,opennlp,categorization,Classification,Opennlp,Categorization,我有一个将聊天文本分类的用例。我想使用ApacheOpenNLP中的DocumentCategorizer对聊天进行分类。但我必须有训练数据，这些数据应该已经被分类了。为了准备培训和测试数据，我必须手动对数百次聊天进行分类吗？我还能做什么？我希望聊天类别是与服务相关的问题。然后，该类别列表将是特定于域的。该数据的提供者是否应向我提供分类聊天数据？提前谢谢。根据定义，如果没有标签数据，您就不会有分类问题。要么有人标记（至少部分）数据，要么您应该尝试以不同的方式解决问题 -- 编辑以添加一些示例，

我有一个将聊天文本分类的用例。我想使用ApacheOpenNLP中的DocumentCategorizer对聊天进行分类。但我必须有训练数据，这些数据应该已经被分类了。为了准备培训和测试数据，我必须手动对数百次聊天进行分类吗？我还能做什么？我希望聊天类别是与服务相关的问题。然后，该类别列表将是特定于域的。该数据的提供者是否应向我提供分类聊天数据？

提前谢谢。

根据定义，如果没有标签数据，您就不会有分类问题。要么有人标记（至少部分）数据，要么您应该尝试以不同的方式解决问题

-- 编辑以添加一些示例，说明如何在不进行分类的情况下解决问题：

通常，根据具体任务，您可以尝试通过聚类或/和文档或术语匹配来解决“分类”问题。聚类将把与同一主题相关的文档分组在一起，而术语匹配将观察引用特定术语的文档。如果没有可用的培训数据，但您对问题有一定的了解，则任何一种方法或它们之间的组合都可能足以满足您的信息需求

对于您的具体问题，我将开始尝试对聊天进行聚类。

虽然聚类允许您对文本进行分类并确定其中的主题，但无监督的方法通常会降低控制分类性能的灵活性，但如果您没有标记的数据，它们仍然是最好的工具

然而，最近在零镜头和少镜头学习方面的进展可以让你用很少（100-200个训练数据）或根本没有训练数据来构建分类器。您的分类器仍然保留监督分类器的所有优点，并为您提供对类别的所有控制

我已经建立了一个这样的系统，您可以在您自己的类别和数据上试用，以查看系统的运行情况

额外资源：

是的，应该是这样。我“我将群集聊天数据。聚类需要过滤不重要的内容，我们称之为停止词和词干，并确保训练数据反映实际数据。就培训数据准备而言，这是否足够。如果你不这么想，请提出建议。这听起来是对的，在你有了集群之后，分析每一个集群的潜在意义将是很有趣的。例如，查看出现最多的术语。这可以为你提供额外的信息。