Java 分类未标记的20ng数据集

Java 分类未标记的20ng数据集,java,weka,data-mining,Java,Weka,Data Mining,我有一个未标记的20个新闻组数据集,没有类标签。这是一个多类文本数据集。但我不知道类别标签;我想使用wekaapi对其进行分类。但weka使用类标签对数据集进行分类。链接是您可以使用carrot2中的lingo聚类算法从原始数据生成标签 我确实在kaypis实验室k1a提供的文本数据集上使用了cluto gcluster工具;它创建范围从0到9的集群,并为每个集群分配不同的属性。我想知道的是,是否为这些不同的属性组分配0-9位数字,然后使用WEKAAPI对它们进行分类。因为我主要关心的是使用we

我有一个未标记的20个新闻组数据集,没有类标签。这是一个多类文本数据集。但我不知道类别标签;我想使用wekaapi对其进行分类。但weka使用类标签对数据集进行分类。链接是

您可以使用carrot2中的lingo聚类算法从原始数据生成标签


我确实在kaypis实验室k1a提供的文本数据集上使用了cluto gcluster工具;它创建范围从0到9的集群,并为每个集群分配不同的属性。我想知道的是,是否为这些不同的属性组分配0-9位数字,然后使用WEKAAPI对它们进行分类。因为我主要关心的是使用weka,或者有其他选择。我可以提供字符串类标签,也可以提供集群工具提供的数字类标签。