如何在Python重复数据消除库中实现自定义比较器?

如何在Python重复数据消除库中实现自定义比较器?,python,fuzzy-comparison,record-linkage,python-dedupe,Python,Fuzzy Comparison,Record Linkage,Python Dedupe,我正在使用迄今为止最棒的帮助链接来自多个提供者的记录。我比较的一个字段是电话号码字段。我想用它来规范这些电话号码。另一个很好的功能是能够比较数字并从0(根本不匹配)返回到4(每个组件都完全匹配) 因此,这似乎是一个自然的适合。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是一个简单的0对1表示匹配/不匹配 我基本上想确保,在幕后,我的自定义比较器将指示重复数据消除,4表示电话号码非常接近,0表示电话号码相距很远 这样行吗?还是我必须以其他方式归还?例如,我是否必须指出与0的精确匹

我正在使用迄今为止最棒的帮助链接来自多个提供者的记录。我比较的一个字段是电话号码字段。我想用它来规范这些电话号码。另一个很好的功能是能够比较数字并从0(根本不匹配)返回到4(每个组件都完全匹配)

因此,这似乎是一个自然的适合。但是我对自定义比较器实现应该是什么样子有点困惑。文档中的示例只是一个简单的0对1表示匹配/不匹配

我基本上想确保,在幕后,我的自定义比较器将指示重复数据消除,4表示电话号码非常接近,0表示电话号码相距很远


这样行吗?还是我必须以其他方式归还?例如,我是否必须指出与0的精确匹配?

从我阅读的文档中,您当然可以返回任何数值,但重复数据消除会将其视为编辑距离度量,因此,如果您想获得有用的结果,确保返回0表示精确匹配,返回更大的数字表示更差的匹配。提示:如果要返回0,Google库将为您提供数字4,如果要返回函数可能返回的最大值,则为0。你能想出一个数学规则,把谷歌的结果转换成你可以使用的结果吗?我投票结束这个问题,因为它看起来是一个逻辑问题,而不是一个编程问题。