Algorithm 文本聚类的k-均值算法_Algorithm_K Means

Algorithm 文本聚类的k-均值算法

algorithm

Algorithm 文本聚类的k-均值算法,algorithm,k-means,Algorithm,K Means,我正在尝试实现文本聚类的k-means，特别是英语句子。到目前为止，每个文档（句子）都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测计算出所有句子中唯一单词的数量（一个大数字，称之为n）创建kn维度向量（簇）并用一些随机数填充k向量的值（如何确定这些数字的边界？）确定从每个q句子到随机k聚类的欧几里德距离，重新定位聚类等。（如果n非常像英语，计算这些向量的欧几里德距离不是很昂贵吗？）谢谢你的洞察力这篇评论有点长如果您有一个文档术语矩

我正在尝试实现文本聚类的k-means，特别是英语句子。到目前为止，每个文档（句子）都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测

计算出所有句子中唯一单词的数量（一个大数字，称之为

）

创建

维度向量（簇）并用一些随机数填充

向量的值（如何确定这些数字的边界？）

确定从每个

句子到随机

聚类的欧几里德距离，重新定位聚类等。（如果

非常像英语，计算这些向量的欧几里德距离不是很昂贵吗？）

谢谢你的洞察力

这篇评论有点长

如果您有一个文档术语矩阵，则查找（协方差矩阵的）主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类

对于文本数据，通常需要一组维度——20、50、100甚至更多。此外，我建议使用高斯混合模型/期望最大化聚类，而不是k-均值，但这是另一回事。

这篇评论有点长

如果您有一个文档术语矩阵，则查找（协方差矩阵的）主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类

对于文本数据，通常需要一组维度——20、50、100甚至更多。此外，我建议使用高斯混合模型/期望最大化聚类，而不是k-均值，但这是另一回事。

这里重新提出了一个稍微陈旧的问题，但值得将两者联系起来

通常，您会使用某种局部敏感的哈希，而不是依赖于单词出现的频率。但是无论哪种方式，手工组装特征矩阵都是一个巨大的麻烦

这为您提供了一个指南，指导您如何使用scikit从文档列表中创建该功能矩阵，了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序。

在这里重新提出一个稍微陈旧的问题，但值得将两者联系起来

通常，您会使用某种局部敏感的哈希，而不是依赖于单词出现的频率。但是无论哪种方式，手工组装特征矩阵都是一个巨大的麻烦

这为您提供了一个指南，指导您如何使用scikit从文档列表中创建该功能矩阵，了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序