Cluster computing weka中的业务术语聚类

Cluster computing weka中的业务术语聚类,cluster-computing,weka,taxonomy,Cluster Computing,Weka,Taxonomy,我正在尝试使用weka来集群业务术语。我有一个包含12000个术语名称和定义的文件,我希望将它们归类到更广泛的主题领域,以此作为分类法的种子。我正在用不同的聚类器进行实验,但没有得到任何有趣的结果。通常,它会创建一个集群,或者似乎没有显示输出就死掉了。对于新手如何起步有什么建议吗?我以前使用过weka,但主要用于分类。我在网上研究的努力并没有产生多少有用的信息 提前谢谢 到目前为止,您使用了哪些Clusters?每个Clusters的结果是什么?你希望在实验中得到什么样的“有趣”结果?您是否为W

我正在尝试使用weka来集群业务术语。我有一个包含12000个术语名称和定义的文件,我希望将它们归类到更广泛的主题领域,以此作为分类法的种子。我正在用不同的聚类器进行实验,但没有得到任何有趣的结果。通常,它会创建一个集群,或者似乎没有显示输出就死掉了。对于新手如何起步有什么建议吗?我以前使用过weka,但主要用于分类。我在网上研究的努力并没有产生多少有用的信息


提前谢谢

到目前为止,您使用了哪些Clusters?每个Clusters的结果是什么?你希望在实验中得到什么样的“有趣”结果?您是否为Weka保留了足够的内存来处理数据的大小?我正在寻找名称和定义中的模式,以帮助将这些术语分组到更高级别的主题领域。我确实将堆大小调整为3072m。当我运行EM时,它创建了两个集群——一个是空定义(5%),另一个是其他所有集群。运行分层,显示正在构建训练集,但随后停止,没有任何消息。运行蜘蛛网,它搅动了一个小时的第一步。k表示将100%放入一个集群,将0放入另一个集群。很明显,我的输入中缺少了一个重要的步骤。谢谢我不认为您一定错过了一个步骤,但可能会将更多的数据投入到集群工具中,超出了可以处理的范围。您可能需要降低数据的维数,以便将它们输入到集群算法中。你知道你的数据集中有多少个属性/单词吗?12000个术语(许多有多个单词)及其定义。我认为更多的数据会更好,但也许我应该减少定义?@user1038067你是如何解决你的问题的,我也有同样的想法