如何在Python重复数据消除库中实现自定义比较器？_Python_Fuzzy Comparison_Record Linkage_Python Dedupe

如何在Python重复数据消除库中实现自定义比较器？

python

如何在Python重复数据消除库中实现自定义比较器？,python,fuzzy-comparison,record-linkage,python-dedupe,Python,Fuzzy Comparison,Record Linkage,Python Dedupe,我正在使用迄今为止最棒的帮助链接来自多个提供者的记录。我比较的一个字段是电话号码字段。我想用它来规范这些电话号码。另一个很好的功能是能够比较数字并从0（根本不匹配）返回到4（每个组件都完全匹配）因此，这似乎是一个自然的适合。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是一个简单的0对1表示匹配/不匹配我基本上想确保，在幕后，我的自定义比较器将指示重复数据消除，4表示电话号码非常接近，0表示电话号码相距很远这样行吗？还是我必须以其他方式归还？例如，我是否必须指出与0的精确匹

我正在使用迄今为止最棒的帮助链接来自多个提供者的记录。我比较的一个字段是电话号码字段。我想用它来规范这些电话号码。另一个很好的功能是能够比较数字并从0（根本不匹配）返回到4（每个组件都完全匹配）

因此，这似乎是一个自然的适合。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是一个简单的0对1表示匹配/不匹配

我基本上想确保，在幕后，我的自定义比较器将指示重复数据消除，4表示电话号码非常接近，0表示电话号码相距很远

这样行吗？还是我必须以其他方式归还？例如，我是否必须指出与0的精确匹配？

从我阅读的文档中，您当然可以返回任何数值，但重复数据消除会将其视为编辑距离度量，因此，如果您想获得有用的结果，确保返回0表示精确匹配，返回更大的数字表示更差的匹配。提示：如果要返回0，Google库将为您提供数字4，如果要返回函数可能返回的最大值，则为0。你能想出一个数学规则，把谷歌的结果转换成你可以使用的结果吗？我投票结束这个问题，因为它看起来是一个逻辑问题，而不是一个编程问题。