Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/wpf/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 文本聚类的k-均值算法_Algorithm_K Means - Fatal编程技术网

Algorithm 文本聚类的k-均值算法

Algorithm 文本聚类的k-均值算法,algorithm,k-means,Algorithm,K Means,我正在尝试实现文本聚类的k-means,特别是英语句子。到目前为止,每个文档(句子)都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测 计算出所有句子中唯一单词的数量(一个大数字,称之为n) 创建kn维度向量(簇)并用一些随机数填充k向量的值(如何确定这些数字的边界?) 确定从每个q句子到随机k聚类的欧几里德距离,重新定位聚类等。(如果n非常像英语,计算这些向量的欧几里德距离不是很昂贵吗?) 谢谢你的洞察力 这篇评论有点长 如果您有一个文档术语矩

我正在尝试实现文本聚类的k-means,特别是英语句子。到目前为止,每个文档(句子)都有一个术语频率矩阵。我对文本数据上k-means的实际实现有点困惑。下面是我对它应该如何工作的猜测

  • 计算出所有句子中唯一单词的数量(一个大数字,称之为
    n

  • 创建
    k
    n
    维度向量(簇)并用一些随机数填充
    k
    向量的值(如何确定这些数字的边界?)

  • 确定从每个
    q
    句子到随机
    k
    聚类的欧几里德距离,重新定位聚类等。(如果
    n
    非常像英语,计算这些向量的欧几里德距离不是很昂贵吗?)


  • 谢谢你的洞察力

    这篇评论有点长

    如果您有一个文档术语矩阵,则查找(协方差矩阵的)主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类


    对于文本数据,通常需要一组维度——20、50、100甚至更多。此外,我建议使用高斯混合模型/期望最大化聚类,而不是k-均值,但这是另一回事。

    这篇评论有点长

    如果您有一个文档术语矩阵,则查找(协方差矩阵的)主成分。确定主成分空间中原始数据的系数。您可以在这个空间中进行k-means聚类


    对于文本数据,通常需要一组维度——20、50、100甚至更多。此外,我建议使用高斯混合模型/期望最大化聚类,而不是k-均值,但这是另一回事。

    这里重新提出了一个稍微陈旧的问题,但值得将两者联系起来

    通常,您会使用某种局部敏感的哈希,而不是依赖于单词出现的频率。但是无论哪种方式,手工组装特征矩阵都是一个巨大的麻烦


    这为您提供了一个指南,指导您如何使用scikit从文档列表中创建该功能矩阵,了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序。

    在这里重新提出一个稍微陈旧的问题,但值得将两者联系起来

    通常,您会使用某种局部敏感的哈希,而不是依赖于单词出现的频率。但是无论哪种方式,手工组装特征矩阵都是一个巨大的麻烦

    这为您提供了一个指南,指导您如何使用scikit从文档列表中创建该功能矩阵,了解并解释这些步骤。我认为这将有助于向您展示所需步骤的顺序