一个简单的java程序,可以根据字符串的值进行聚类

一个简单的java程序,可以根据字符串的值进行聚类,java,string,cluster-analysis,Java,String,Cluster Analysis,我想知道如何使用java中的canopy cluster对这个输入进行集群 1 access 375 1 addition 375 1 advance 375 1 answered 375 1 applied 375 1 approximate 375 1 evil 375 1 hiway 375 1 home 375 1 hope 375

我想知道如何使用java中的canopy cluster对这个输入进行集群

       1 access 375
       1 addition 375
       1 advance 375
       1 answered 375
       1 applied 375
       1 approximate 375
       1 evil 375

       1 hiway 375
       1 home 375
       1 hope 375
       1 hotmail 375
       3 town 375
       4 forum 375
       4 good 375
       4 reig 375
       5 plot 375
其中第一列是单词的频率。第二列是单词,第三列是单词总数


如何进行树冠分类?想知道什么是阈值吗?

树冠聚类应用于向量和完整文本,而不是单个单词

<> P:你认为集群是什么?除非你清楚你期望集群是什么样的,否则你永远都不会明白正确的算法是什么

那么,您是否希望出现如下集群:

   1 access 375
   1 addition 375
   1 advance 375
   1 answered 375
   1 applied 375
   1 approximate 375
(罕见的以a开头的单词)?这对你有用吗


聚类算法不是神奇的工具。您需要仔细选择和配置它们,以产生您感兴趣的结果。

我不知道树冠排序。你能解释一下输出应该是什么吗?因此,任何人都知道如何对这些数据进行树冠聚类吗?你能给我举个例子,说明树冠聚类的输入向量是怎样的吗?[你好,helloworld,40,晚安][hellosir,helloworld,42,早安][hellohi,helloworld,44,晚安]试试TF-IDF向量机。请注意,它不是对单词进行聚类,而是对文档进行聚类。