Python 比较两条信息以得出相似性_Python_Performance_Algorithm_Sorting_Logic

Python 比较两条信息以得出相似性

python performance algorithm sorting logic

Python 比较两条信息以得出相似性,python,performance,algorithm,sorting,logic,Python,Performance,Algorithm,Sorting,Logic,我有以下困境。我已经在数据库中存储了信息，我将添加到其中。我有以下字段： Title Location Description 我希望避免将相同的内容重新添加到数据库中。然而，当前设置的情况似乎是，我检查它们是否完全相同，但有时可以输出一个字符，它会将其作为两个不同的值接受是否有可能加入某种“捏造因素”，以允许两者之间存在非常微小的差异。我更一般地寻找这种技术，但如果它有什么不同，我会用python编码。这是典型的“脏数据”问题。目标是在数据库中只有干净的数据，并识别重复的数据这项技术取决

我有以下困境。我已经在数据库中存储了信息，我将添加到其中。我有以下字段：

Title
Location
Description

我希望避免将相同的内容重新添加到数据库中。然而，当前设置的情况似乎是，我检查它们是否完全相同，但有时可以输出一个字符，它会将其作为两个不同的值接受

是否有可能加入某种“捏造因素”，以允许两者之间存在非常微小的差异。我更一般地寻找这种技术，但如果它有什么不同，我会用python编码。

这是典型的“脏数据”问题。目标是在数据库中只有干净的数据，并识别重复的数据

这项技术取决于您的数据，是否可以轻松清理，或者是否需要一些编程逻辑。例如，姓“van Rossum”与“van Rossum”相同，还是“Håstad”与“Hasted”相同？上一次的实时股价是真实的，还是应该放弃的峰值

除了适用于每个字段的规则列表之外，可能没有简单的答案。可能没有一个“捏造因素”可以修复所有数据

您的最佳方法应该与标题、位置和描述的已知“良好”值相关。也许你的位置定义得很好，你可以很容易地发现不正确的位置——然后你需要决定正确的位置应该是什么

常见的做法包括“踢出”不符合规则的数据，以便用户做出决定，或者简单地将其标记为脏数据，以便用户在搜索结果中显示时应用心理捏造因素