Text 加快文本比较(使用稀疏矩阵)

Text 加快文本比较(使用稀疏矩阵),text,comparison,matrix,analysis,Text,Comparison,Matrix,Analysis,我有一个函数,它取两个字符串,并给出余弦相似值,它显示了两个文本之间的关系 如果我想比较75个文本,我需要做5625个单一比较,让所有文本相互比较 有没有办法减少这种比较的次数?例如稀疏矩阵或k-均值 我不想谈论我的功能或比较文本的方法。只是减少比较的数量。如果您的算法是成对的,那么根据定义,您可能无法减少比较的数量 如果你想减少比较的次数,你需要使用不同的算法,或者至少对你的输入进行预处理 如果没有你的功能细节,很难提供任何具体的帮助。Ben说的是真的,要获得更好的帮助,你需要告诉我们目标是什

我有一个函数,它取两个字符串,并给出余弦相似值,它显示了两个文本之间的关系

如果我想比较75个文本,我需要做5625个单一比较,让所有文本相互比较

有没有办法减少这种比较的次数?例如稀疏矩阵或k-均值


我不想谈论我的功能或比较文本的方法。只是减少比较的数量。

如果您的算法是成对的,那么根据定义,您可能无法减少比较的数量

如果你想减少比较的次数,你需要使用不同的算法,或者至少对你的输入进行预处理


如果没有你的功能细节,很难提供任何具体的帮助。

Ben说的是真的,要获得更好的帮助,你需要告诉我们目标是什么


例如,如果要查找相似字符串,一种可能的优化方法是将字符串向量存储在空间数据结构(如四叉树)中,在这种结构中,您可以直接丢弃彼此距离过远的向量,从而避免多次比较。

我的函数计算余弦相似性。它需要两个数组,其中包含文本的标记/单词。我认为你只能成对计算余弦相似性,所以你不能减少余弦相似性的比较次数,对吗?是的,但是如果你只对某些数据感兴趣,你可能可以避免做一些比较,比如文科提到的相似字符串。是的,我想找到相似的字符串。更多细节见我对本回答的评论。我的数据库(MySQL)似乎有以下空间类型:四叉树没有任何意义!?多种空间索引可以很好地为您服务。阅读MySQL中的可用表单。我现在已经阅读了很多关于这些空间特性的内容。我在问题中加了一段关于它的内容。你能给我进一步的帮助吗?我建议你就如何在你的用例中使用mysql spatial extensions提出一个不同的问题,并保持这个问题不变,以防有人有更好的算法来比较你的字符串。好主意:)关于mysql的空间特性的问题现在在这里:所以在这个问题中,我在寻找能帮上忙的算法。