Ruby 在Sphinx中计算文档相似矩阵？_Ruby_Lucene_Similarity_Tf Idf_Cosine Similarity

Ruby 在Sphinx中计算文档相似矩阵？

ruby lucene

Ruby 在Sphinx中计算文档相似矩阵？,ruby,lucene,similarity,tf-idf,cosine-similarity,Ruby,Lucene,Similarity,Tf Idf,Cosine Similarity,Sphinx是否提供了一种预计算文档相似性矩阵的方法？我已经看过斯芬克斯/索尔/卢森；Lucene似乎能够通过术语向量间接地做到这一点目前，我正在使用来进行这些计算，但随着数据集的增长，速度非常慢；类似于^n-1！上的某些内容目前正试图找到一个更快的替代方案。Lucene似乎是一个潜在的解决方案，但它在Ruby社区中没有那么多的支持，因此如果Sphinx有一个很好的方法来实现这一点，那将是理想的只是澄清一下；我没有尝试进行实时搜索相似性匹配，这似乎是Lucene和Sphinx最常见的用例，

Sphinx是否提供了一种预计算文档相似性矩阵的方法？我已经看过斯芬克斯/索尔/卢森；Lucene似乎能够通过术语向量间接地做到这一点

目前，我正在使用来进行这些计算，但随着数据集的增长，速度非常慢；类似于^n-1！上的某些内容

目前正试图找到一个更快的替代方案。Lucene似乎是一个潜在的解决方案，但它在Ruby社区中没有那么多的支持，因此如果Sphinx有一个很好的方法来实现这一点，那将是理想的

只是澄清一下；我没有尝试进行实时搜索相似性匹配，这似乎是Lucene和Sphinx最常见的用例，我尝试预计算一个相似性矩阵，该矩阵将在所有文档和数据集之间创建相似性。这将随后用于不同类型用户分析的数据可视化

同样，任何有过这方面经验的人，我都对基准测试感到好奇。根据文档数量和平均文档大小，您使用了多少计算能力和/或并行化

目前，我处理大约4000个文档大约需要40分钟，处理6400条记录大约需要2小时。这里提供了两种不同的大小和时间，以指示增长扩展，这样您就可以看到，对于非常大的数据集，这将变得多么缓慢