Text 加快文本比较（使用稀疏矩阵）_Text_Comparison_Matrix_Analysis

Text 加快文本比较（使用稀疏矩阵）

text matrix

Text 加快文本比较（使用稀疏矩阵）,text,comparison,matrix,analysis,Text,Comparison,Matrix,Analysis,我有一个函数，它取两个字符串，并给出余弦相似值，它显示了两个文本之间的关系如果我想比较75个文本，我需要做5625个单一比较，让所有文本相互比较有没有办法减少这种比较的次数？例如稀疏矩阵或k-均值我不想谈论我的功能或比较文本的方法。只是减少比较的数量。如果您的算法是成对的，那么根据定义，您可能无法减少比较的数量如果你想减少比较的次数，你需要使用不同的算法，或者至少对你的输入进行预处理如果没有你的功能细节，很难提供任何具体的帮助。Ben说的是真的，要获得更好的帮助，你需要告诉我们目标是什

我有一个函数，它取两个字符串，并给出余弦相似值，它显示了两个文本之间的关系

如果我想比较75个文本，我需要做5625个单一比较，让所有文本相互比较

有没有办法减少这种比较的次数？例如稀疏矩阵或k-均值

我不想谈论我的功能或比较文本的方法。只是减少比较的数量。

如果您的算法是成对的，那么根据定义，您可能无法减少比较的数量

如果你想减少比较的次数，你需要使用不同的算法，或者至少对你的输入进行预处理

如果没有你的功能细节，很难提供任何具体的帮助。

Ben说的是真的，要获得更好的帮助，你需要告诉我们目标是什么

例如，如果要查找相似字符串，一种可能的优化方法是将字符串向量存储在空间数据结构（如四叉树）中，在这种结构中，您可以直接丢弃彼此距离过远的向量，从而避免多次比较。

我的函数计算余弦相似性。它需要两个数组，其中包含文本的标记/单词。我认为你只能成对计算余弦相似性，所以你不能减少余弦相似性的比较次数，对吗？是的，但是如果你只对某些数据感兴趣，你可能可以避免做一些比较，比如文科提到的相似字符串。是的，我想找到相似的字符串。更多细节见我对本回答的评论。我的数据库（MySQL）似乎有以下空间类型：四叉树没有任何意义！？多种空间索引可以很好地为您服务。阅读MySQL中的可用表单。我现在已经阅读了很多关于这些空间特性的内容。我在问题中加了一段关于它的内容。你能给我进一步的帮助吗？我建议你就如何在你的用例中使用mysql spatial extensions提出一个不同的问题，并保持这个问题不变，以防有人有更好的算法来比较你的字符串。好主意：）关于mysql的空间特性的问题现在在这里：所以在这个问题中，我在寻找能帮上忙的算法。