Python 记录链接上的重复数据消除溢出错误
我想使用重复数据消除库进行记录链接。我从Github上的重复数据消除示例中编写了这段代码。但是,当我运行代码时,会出现以下错误: 溢出错误:Python int太大,无法转换为C ssize\u t## 这是因为我的数据非常大。我怎么不能过滤我的数据列?? 这应该会有帮助。我搜索了所有的问题,但找不到正确的答案Python 记录链接上的重复数据消除溢出错误,python,python-3.x,duplicates,record-linkage,python-dedupe,Python,Python 3.x,Duplicates,Record Linkage,Python Dedupe,我想使用重复数据消除库进行记录链接。我从Github上的重复数据消除示例中编写了这段代码。但是,当我运行代码时,会出现以下错误: 溢出错误:Python int太大,无法转换为C ssize\u t## 这是因为我的数据非常大。我怎么不能过滤我的数据列?? 这应该会有帮助。我搜索了所有的问题,但找不到正确的答案 def readData(filename): """ Read in our data from a CSV file and create a dictionary
def readData(filename):
"""
Read in our data from a CSV file and create a dictionary of records,
where the key is a unique record ID.
"""
data_d = {}
with codecs.open(filename,encoding='utf-8') as f:
reader = csv.DictReader(f)
for i, row in enumerate(reader):
clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
data_d[filename + str(i)] = dict(clean_row)
return data_d
奇怪的是,在预处理函数的第45行,我得到了一个
预期的字符串或类似object的字节错误。您是否忘记添加运行代码所需的内容?您的依赖项和python解释器的具体版本是什么?@marcelo lacerda我使用的是python 3.6,没有类似的错误this@marcelo-lacerda marcelo i用str(列)修复了您的错误。对不起,我忘了在代码中添加它。我现在添加它。您所做的编辑删除了导致错误的代码部分:而且您的旧代码在使用str(column)后在此处运行良好: