Algorithm 文本聚类的k-均值算法
我正在尝试实现文本聚类的k-means,特别是英语句子。到目前为止,每个文档(句子)都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测Algorithm 文本聚类的k-均值算法,algorithm,k-means,Algorithm,K Means,我正在尝试实现文本聚类的k-means,特别是英语句子。到目前为止,每个文档(句子)都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测 计算出所有句子中唯一单词的数量(一个大数字,称之为n) 创建kn维度向量(簇)并用一些随机数填充k向量的值(如何确定这些数字的边界?) 确定从每个q句子到随机k聚类的欧几里德距离,重新定位聚类等。(如果n非常像英语,计算这些向量的欧几里德距离不是很昂贵吗?) 谢谢你的洞察力 这篇评论有点长 如果您有一个文档术语矩
n
)k
n
维度向量(簇)并用一些随机数填充k
向量的值(如何确定这些数字的边界?)q
句子到随机k
聚类的欧几里德距离,重新定位聚类等。(如果n
非常像英语,计算这些向量的欧几里德距离不是很昂贵吗?)谢谢你的洞察力 这篇评论有点长 如果您有一个文档术语矩阵,则查找(协方差矩阵的)主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类
对于文本数据,通常需要一组维度——20、50、100甚至更多。此外,我建议使用高斯混合模型/期望最大化聚类,而不是k-均值,但这是另一回事。这篇评论有点长 如果您有一个文档术语矩阵,则查找(协方差矩阵的)主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类
对于文本数据,通常需要一组维度——20、50、100甚至更多。此外,我建议使用高斯混合模型/期望最大化聚类,而不是k-均值,但这是另一回事。这里重新提出了一个稍微陈旧的问题,但值得将两者联系起来 通常,您会使用某种局部敏感的哈希,而不是依赖于单词出现的频率。但是无论哪种方式,手工组装特征矩阵都是一个巨大的麻烦
这为您提供了一个指南,指导您如何使用scikit从文档列表中创建该功能矩阵,了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序。在这里重新提出一个稍微陈旧的问题,但值得将两者联系起来 通常,您会使用某种局部敏感的哈希,而不是依赖于单词出现的频率。但是无论哪种方式,手工组装特征矩阵都是一个巨大的麻烦 这为您提供了一个指南,指导您如何使用scikit从文档列表中创建该功能矩阵,了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序