Python 语义分析后的Tweet聚类_Python_Nlp_Cluster Analysis_K Means_Tweets

Python 语义分析后的Tweet聚类

python nlp

Python 语义分析后的Tweet聚类,python,nlp,cluster-analysis,k-means,tweets,Python,Nlp,Cluster Analysis,K Means,Tweets,我想将一组tweet聚集在一起。我已经检索了推文，清理了它们，对它们应用了一个天真的贝叶斯分类器，并将它们分为两个文件，正面和负面。最后，我做了以下工作来搜索每条推文之间的相似之处： with open("positive.txt", "r") as pt: lines = pt.readlines() for lineA in lines: vectorA = text_to_vector(lineA) for

我想将一组tweet聚集在一起。我已经检索了推文，清理了它们，对它们应用了一个天真的贝叶斯分类器，并将它们分为两个文件，正面和负面。最后，我做了以下工作来搜索每条推文之间的相似之处：

  with open("positive.txt", "r") as pt:
        lines = pt.readlines()
        for lineA in lines:
            vectorA = text_to_vector(lineA)
            for lineB in lines:
                vectorB = text_to_vector(lineB)
                cosine = get_cosine(vectorA, vectorB)
                print lineA, "\n", lineB, "\n", "Cosine:", cosine

现在，这是用来衡量每个句子相对于另一个句子的相似性的，我想下一步可能是把所有短语的值加起来，把句子n与所有句子的关系的所有余弦值加起来，然后画出它们并应用类似于KMeans的东西，我不完全确定我在这里采取的方法是否正确，因此非常感谢您提供的任何帮助。

如果您有一组文档要进行集群（基于它们的内容），最简单的选择是使用该工具。您基本上必须分两步运行它

第一步是执行doc2mat程序，该程序接收一个输入文件，该文件应包含所有文档，每行一个文档。doc2mat程序将写出一个矩阵文件，由每个文档的tf idf矢量表示组成

然后，需要将该矩阵文件输入到程序vcluster，该程序将生成聚类结果。如果您向vcluster输入一个引用类文件，您还可以评估聚类结果。

有很多选择，但根据我的经验，它们都不适用于推特。你有重复（容易），接近重复（更具挑战性，在规模）。但是集群——推特中的垃圾太多了，无法正常工作。我可以在执行第一步后应用k-means吗？似乎也找不到vcluster周围提供的关怀链接？最后，你能详细谈谈你的最后一句话吗？我不认为我完全理解。我会尝试一下，一旦我发现答案是我想要的，我就会验证它！对你可以应用K-均值。。。浏览vcluster的文档。。。其中一个参数是'clmethod'，K-均值的参数应该是'direct'。。。仔细阅读这本手册