Ruby 在Sphinx中计算文档相似矩阵?

Ruby 在Sphinx中计算文档相似矩阵?,ruby,lucene,similarity,tf-idf,cosine-similarity,Ruby,Lucene,Similarity,Tf Idf,Cosine Similarity,Sphinx是否提供了一种预计算文档相似性矩阵的方法?我已经看过斯芬克斯/索尔/卢森;Lucene似乎能够通过术语向量间接地做到这一点 目前,我正在使用来进行这些计算,但随着数据集的增长,速度非常慢;类似于^n-1!上的某些内容 目前正试图找到一个更快的替代方案。Lucene似乎是一个潜在的解决方案,但它在Ruby社区中没有那么多的支持,因此如果Sphinx有一个很好的方法来实现这一点,那将是理想的 只是澄清一下;我没有尝试进行实时搜索相似性匹配,这似乎是Lucene和Sphinx最常见的用例,

Sphinx是否提供了一种预计算文档相似性矩阵的方法?我已经看过斯芬克斯/索尔/卢森;Lucene似乎能够通过术语向量间接地做到这一点

目前,我正在使用来进行这些计算,但随着数据集的增长,速度非常慢;类似于^n-1!上的某些内容

目前正试图找到一个更快的替代方案。Lucene似乎是一个潜在的解决方案,但它在Ruby社区中没有那么多的支持,因此如果Sphinx有一个很好的方法来实现这一点,那将是理想的

只是澄清一下;我没有尝试进行实时搜索相似性匹配,这似乎是Lucene和Sphinx最常见的用例,我尝试预计算一个相似性矩阵,该矩阵将在所有文档和数据集之间创建相似性。这将随后用于不同类型用户分析的数据可视化

同样,任何有过这方面经验的人,我都对基准测试感到好奇。根据文档数量和平均文档大小,您使用了多少计算能力和/或并行化

目前,我处理大约4000个文档大约需要40分钟,处理6400条记录大约需要2小时。这里提供了两种不同的大小和时间,以指示增长扩展,这样您就可以看到,对于非常大的数据集,这将变得多么缓慢