Python 大内存嵌入数据集的社区检测

Python 大内存嵌入数据集的社区检测,python,algorithm,word-embedding,Python,Algorithm,Word Embedding,我目前有一个文本嵌入数据集(768维)。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集,我可以使用以下数据集: 它工作得很好,但是,随着数据集比内存大,它并不能真正扩展 这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法,但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量 我确信有一类算法——希望还有一个python库——可以处理这种情况,但我一直无法找到它。有人知道我可以使用的算法或解决方案吗?它看起来足够小,你可以租一台

我目前有一个文本嵌入数据集(768维)。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集,我可以使用以下数据集:

它工作得很好,但是,随着数据集比内存大,它并不能真正扩展

这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法,但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量


我确信有一类算法——希望还有一个python库——可以处理这种情况,但我一直无法找到它。有人知道我可以使用的算法或解决方案吗?

它看起来足够小,你可以租一台更大的计算机

然而,要回答这个问题,通常需要将数据聚类成几个适合内存的块(重叠或不重叠),然后对每个块应用更高质量的内存聚类算法。余弦相似性的一个典型策略是通过

  • 那里有一整部文学作品
  • 如果你已经有了一个你喜欢的可伸缩的集群算法,你可以使用它

  • 谢谢你的回复!我将调查更大的计算机。澄清一件事,这可能会扩大到1000万,但不会更多。关于文献,任何指点都是最受欢迎的。我并不总是确定要搜索什么…我也应该说,感谢SimHash上的指针。这可能就是我想要的。干杯。今天我花了一些时间研究simhash/etc。我不清楚的是它们是如何处理非二进制向量的。我所有的嵌入都使用浮动。我已经在分割成块和我现有的算法方面取得了一些进展,所以这可能是最好的方法。@DanDiephouse您选择一个具有独立高斯元素的随机向量,并将其点积的符号与每个向量一起提取。@DanDiephouse第3节