Python 比较两条信息以得出相似性

Python 比较两条信息以得出相似性,python,performance,algorithm,sorting,logic,Python,Performance,Algorithm,Sorting,Logic,我有以下困境。我已经在数据库中存储了信息,我将添加到其中。我有以下字段: Title Location Description 我希望避免将相同的内容重新添加到数据库中。然而,当前设置的情况似乎是,我检查它们是否完全相同,但有时可以输出一个字符,它会将其作为两个不同的值接受 是否有可能加入某种“捏造因素”,以允许两者之间存在非常微小的差异。我更一般地寻找这种技术,但如果它有什么不同,我会用python编码。这是典型的“脏数据”问题。目标是在数据库中只有干净的数据,并识别重复的数据 这项技术取决

我有以下困境。我已经在数据库中存储了信息,我将添加到其中。我有以下字段:

Title
Location
Description
我希望避免将相同的内容重新添加到数据库中。然而,当前设置的情况似乎是,我检查它们是否完全相同,但有时可以输出一个字符,它会将其作为两个不同的值接受

是否有可能加入某种“捏造因素”,以允许两者之间存在非常微小的差异。我更一般地寻找这种技术,但如果它有什么不同,我会用python编码。

这是典型的“脏数据”问题。目标是在数据库中只有干净的数据,并识别重复的数据

这项技术取决于您的数据,是否可以轻松清理,或者是否需要一些编程逻辑。例如,姓“van Rossum”与“van Rossum”相同,还是“Håstad”与“Hasted”相同?上一次的实时股价是真实的,还是应该放弃的峰值

除了适用于每个字段的规则列表之外,可能没有简单的答案。可能没有一个“捏造因素”可以修复所有数据

您的最佳方法应该与标题、位置和描述的已知“良好”值相关。也许你的位置定义得很好,你可以很容易地发现不正确的位置——然后你需要决定正确的位置应该是什么

常见的做法包括“踢出”不符合规则的数据,以便用户做出决定,或者简单地将其标记为脏数据,以便用户在搜索结果中显示时应用心理捏造因素