Nlp 当预定义的类别不可用时,如何对文本进行分类

Nlp 当预定义的类别不可用时,如何对文本进行分类,nlp,data-mining,text-processing,Nlp,Data Mining,Text Processing,我有一个问题,不知道该应用哪种算法。 我正在考虑在案例2中应用集群,但在案例1中没有想法: 我有150万张信用卡活动文件。每个文档定义良好,每行包含一个事务。日期、金额、零售商名称以及5-20字的简短描述。 样本: 2004年11月47日500美元,亚马逊,一家提供书籍、硬件、音乐等商品和服务的在线零售商。 问题: 1.如果没有预定义的类别,如何对每个条目进行分类。 2.如果给你预先定义的类别,如“餐厅”、“娱乐”等,你会怎么做?1)如果没有预先定义的类别,你会如何对每个条目进行分类 你不会的。

我有一个问题,不知道该应用哪种算法。 我正在考虑在案例2中应用集群,但在案例1中没有想法:

我有150万张信用卡活动文件。每个文档定义良好,每行包含一个事务。日期、金额、零售商名称以及5-20字的简短描述。 样本: 2004年11月47日500美元,亚马逊,一家提供书籍、硬件、音乐等商品和服务的在线零售商。 问题: 1.如果没有预定义的类别,如何对每个条目进行分类。 2.如果给你预先定义的类别,如“餐厅”、“娱乐”等,你会怎么做?

1)如果没有预先定义的类别,你会如何对每个条目进行分类

你不会的。取而代之的是,你可以对数据的特征使用一些降维算法,在二维中对它们进行降维,猜测“自然”聚类的数量,然后运行聚类算法

2) 如果给你预定义的类别,如“餐厅”、“娱乐”等,你会怎么做


您可以手动标记一组类别,然后在此基础上训练分类器,看看它在精度/F1、交叉验证等常规机制中的效果如何。或者您可以检查聚类算法是否能够很好地提取这些类别,但您仍然需要一些标记数据。

此项目的目的是什么?