Cluster computing weka中的业务术语聚类_Cluster Computing_Weka_Taxonomy

Cluster computing weka中的业务术语聚类

cluster-computing

Cluster computing weka中的业务术语聚类,cluster-computing,weka,taxonomy,Cluster Computing,Weka,Taxonomy,我正在尝试使用weka来集群业务术语。我有一个包含12000个术语名称和定义的文件，我希望将它们归类到更广泛的主题领域，以此作为分类法的种子。我正在用不同的聚类器进行实验，但没有得到任何有趣的结果。通常，它会创建一个集群，或者似乎没有显示输出就死掉了。对于新手如何起步有什么建议吗？我以前使用过weka，但主要用于分类。我在网上研究的努力并没有产生多少有用的信息提前谢谢到目前为止，您使用了哪些Clusters？每个Clusters的结果是什么？你希望在实验中得到什么样的“有趣”结果？您是否为W

我正在尝试使用weka来集群业务术语。我有一个包含12000个术语名称和定义的文件，我希望将它们归类到更广泛的主题领域，以此作为分类法的种子。我正在用不同的聚类器进行实验，但没有得到任何有趣的结果。通常，它会创建一个集群，或者似乎没有显示输出就死掉了。对于新手如何起步有什么建议吗？我以前使用过weka，但主要用于分类。我在网上研究的努力并没有产生多少有用的信息

提前谢谢

到目前为止，您使用了哪些Clusters？每个Clusters的结果是什么？你希望在实验中得到什么样的“有趣”结果？您是否为Weka保留了足够的内存来处理数据的大小？我正在寻找名称和定义中的模式，以帮助将这些术语分组到更高级别的主题领域。我确实将堆大小调整为3072m。当我运行EM时，它创建了两个集群——一个是空定义（5%），另一个是其他所有集群。运行分层，显示正在构建训练集，但随后停止，没有任何消息。运行蜘蛛网，它搅动了一个小时的第一步。k表示将100%放入一个集群，将0放入另一个集群。很明显，我的输入中缺少了一个重要的步骤。谢谢我不认为您一定错过了一个步骤，但可能会将更多的数据投入到集群工具中，超出了可以处理的范围。您可能需要降低数据的维数，以便将它们输入到集群算法中。你知道你的数据集中有多少个属性/单词吗？12000个术语（许多有多个单词）及其定义。我认为更多的数据会更好，但也许我应该减少定义？@user1038067你是如何解决你的问题的，我也有同样的想法