Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 记录链接上的重复数据消除溢出错误_Python_Python 3.x_Duplicates_Record Linkage_Python Dedupe - Fatal编程技术网

Python 记录链接上的重复数据消除溢出错误

Python 记录链接上的重复数据消除溢出错误,python,python-3.x,duplicates,record-linkage,python-dedupe,Python,Python 3.x,Duplicates,Record Linkage,Python Dedupe,我想使用重复数据消除库进行记录链接。我从Github上的重复数据消除示例中编写了这段代码。但是,当我运行代码时,会出现以下错误: 溢出错误:Python int太大,无法转换为C ssize\u t## 这是因为我的数据非常大。我怎么不能过滤我的数据列?? 这应该会有帮助。我搜索了所有的问题,但找不到正确的答案 def readData(filename): """ Read in our data from a CSV file and create a dictionary

我想使用重复数据消除库进行记录链接。我从Github上的重复数据消除示例中编写了这段代码。但是,当我运行代码时,会出现以下错误:

溢出错误:Python int太大,无法转换为C ssize\u t##

这是因为我的数据非常大。我怎么不能过滤我的数据列?? 这应该会有帮助。我搜索了所有的问题,但找不到正确的答案

def readData(filename):
    """
    Read in our data from a CSV file and create a dictionary of records,
    where the key is a unique record ID.
    """

    data_d = {}

    with codecs.open(filename,encoding='utf-8') as f:

       reader = csv.DictReader(f)
       for i, row in enumerate(reader):
            clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
            data_d[filename + str(i)] = dict(clean_row)

    return data_d

奇怪的是,在预处理函数的第45行,我得到了一个
预期的字符串或类似object的字节
错误。您是否忘记添加运行代码所需的内容?您的依赖项和python解释器的具体版本是什么?@marcelo lacerda我使用的是python 3.6,没有类似的错误this@marcelo-lacerda marcelo i用str(列)修复了您的错误。对不起,我忘了在代码中添加它。我现在添加它。您所做的编辑删除了导致错误的代码部分:而且您的旧代码在使用str(column)后在此处运行良好: