Python 大内存嵌入数据集的社区检测_Python_Algorithm_Word Embedding

Python 大内存嵌入数据集的社区检测

python algorithm

Python 大内存嵌入数据集的社区检测,python,algorithm,word-embedding,Python,Algorithm,Word Embedding,我目前有一个文本嵌入数据集（768维）。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集，我可以使用以下数据集：它工作得很好，但是，随着数据集比内存大，它并不能真正扩展这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法，但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量我确信有一类算法——希望还有一个python库——可以处理这种情况，但我一直无法找到它。有人知道我可以使用的算法或解决方案吗？它看起来足够小，你可以租一台

我目前有一个文本嵌入数据集（768维）。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集，我可以使用以下数据集：

它工作得很好，但是，随着数据集比内存大，它并不能真正扩展

这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法，但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量

我确信有一类算法——希望还有一个python库——可以处理这种情况，但我一直无法找到它。有人知道我可以使用的算法或解决方案吗？

它看起来足够小，你可以租一台更大的计算机

然而，要回答这个问题，通常需要将数据聚类成几个适合内存的块（重叠或不重叠），然后对每个块应用更高质量的内存聚类算法。余弦相似性的一个典型策略是通过

那里有一整部文学作品

如果你已经有了一个你喜欢的可伸缩的集群算法，你可以使用它

谢谢你的回复！我将调查更大的计算机。澄清一件事，这可能会扩大到1000万，但不会更多。关于文献，任何指点都是最受欢迎的。我并不总是确定要搜索什么…我也应该说，感谢SimHash上的指针。这可能就是我想要的。干杯。今天我花了一些时间研究simhash/etc。我不清楚的是它们是如何处理非二进制向量的。我所有的嵌入都使用浮动。我已经在分割成块和我现有的算法方面取得了一些进展，所以这可能是最好的方法。@DanDiephouse您选择一个具有独立高斯元素的随机向量，并将其点积的符号与每个向量一起提取。@DanDiephouse第3节