如何在java中使用k-means算法进行词聚类

如何在java中使用k-means算法进行词聚类,java,Java,请帮助我如何在java中使用k-means算法执行单词聚类。从这组文档中,我得到了word及其频率计数。然后我不知道如何开始聚类。我已经在谷歌搜索了。但是不知道。请告诉我执行单词聚类的步骤。现在非常需要。提前感谢。托比·塞加兰(Toby Segaran)有一个关于如何做到这一点的精彩章节。这些示例是用Python编写的,但它们应该很容易移植到Java。在集群中,最重要的是构建一个方法,该方法检查如何将事物(例如)紧密地联系在一起。例如,如果您对使用相同语言的字符串感兴趣,这可能是: int ca

请帮助我如何在java中使用k-means算法执行单词聚类。从这组文档中,我得到了word及其频率计数。然后我不知道如何开始聚类。我已经在谷歌搜索了。但是不知道。请告诉我执行单词聚类的步骤。现在非常需要。提前感谢。

托比·塞加兰(Toby Segaran)有一个关于如何做到这一点的精彩章节。这些示例是用Python编写的,但它们应该很容易移植到Java。

在集群中,最重要的是构建一个方法,该方法检查如何将事物(例如)紧密地联系在一起。例如,如果您对使用相同语言的字符串感兴趣,这可能是:

int calculateDistance(String s1, String s2) {
     return Math.abs(s1.length() - s2.length());
}
那我就不太确定了,但实际上可能是这样的: 1.选择(可以随机)第一个k字符串, 2.迭代所有字符串,并将它们与“最近的”字符串关联

然后可以是一些东西,比如从每个“集群”中间选择,然后重新开始。我不记得这是100%,但我觉得这是一个很好的开始


记住,最重要的是calculateInstance()方法

你应该提高你的接受率。