Python 语义分析后的Tweet聚类

Python 语义分析后的Tweet聚类,python,nlp,cluster-analysis,k-means,tweets,Python,Nlp,Cluster Analysis,K Means,Tweets,我想将一组tweet聚集在一起。我已经检索了推文,清理了它们,对它们应用了一个天真的贝叶斯分类器,并将它们分为两个文件,正面和负面。最后,我做了以下工作来搜索每条推文之间的相似之处: with open("positive.txt", "r") as pt: lines = pt.readlines() for lineA in lines: vectorA = text_to_vector(lineA) for

我想将一组tweet聚集在一起。我已经检索了推文,清理了它们,对它们应用了一个天真的贝叶斯分类器,并将它们分为两个文件,正面和负面。最后,我做了以下工作来搜索每条推文之间的相似之处:

  with open("positive.txt", "r") as pt:
        lines = pt.readlines()
        for lineA in lines:
            vectorA = text_to_vector(lineA)
            for lineB in lines:
                vectorB = text_to_vector(lineB)
                cosine = get_cosine(vectorA, vectorB)
                print lineA, "\n", lineB, "\n", "Cosine:", cosine

现在,这是用来衡量每个句子相对于另一个句子的相似性的,我想下一步可能是把所有短语的值加起来,把句子n与所有句子的关系的所有余弦值加起来,然后画出它们并应用类似于KMeans的东西,我不完全确定我在这里采取的方法是否正确,因此非常感谢您提供的任何帮助。

如果您有一组文档要进行集群(基于它们的内容),最简单的选择是使用该工具。您基本上必须分两步运行它

第一步是执行doc2mat程序,该程序接收一个输入文件,该文件应包含所有文档,每行一个文档。doc2mat程序将写出一个矩阵文件,由每个文档的tf idf矢量表示组成


然后,需要将该矩阵文件输入到程序vcluster,该程序将生成聚类结果。如果您向vcluster输入一个引用类文件,您还可以评估聚类结果。

有很多选择,但根据我的经验,它们都不适用于推特。你有重复(容易),接近重复(更具挑战性,在规模)。但是集群——推特中的垃圾太多了,无法正常工作。我可以在执行第一步后应用k-means吗?似乎也找不到vcluster周围提供的关怀链接?最后,你能详细谈谈你的最后一句话吗?我不认为我完全理解。我会尝试一下,一旦我发现答案是我想要的,我就会验证它!对你可以应用K-均值。。。浏览vcluster的文档。。。其中一个参数是'clmethod',K-均值的参数应该是'direct'。。。仔细阅读这本手册