Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python中大型文件的高效合并清除_Python_Mailmerge_Record Linkage - Fatal编程技术网

python中大型文件的高效合并清除

python中大型文件的高效合并清除,python,mailmerge,record-linkage,Python,Mailmerge,Record Linkage,我有两个文件要合并(左连接),以确定左文件中的哪些记录与右文件中的匹配行一起返回 匹配键基于定义邮政数据的列的选择。我正在研究如何定义匹配阈值,并为重复管理的唯一地址分配唯一密钥。这也被称为持家,这意味着新的匹配不会减少处理 真正的挑战是为非常大的文件高效地运行主匹配循环 这个设置可能是map/reduce的一个很好的候选者,但我现在想探索自包含的(如“不那么天真”)解决方案 我已经检查过了,但是由于正确的表被反复访问,因此可能会有一个特定于此练习的最佳结构 有什么想法吗?谢谢 import c

我有两个文件要合并(左连接),以确定左文件中的哪些记录与右文件中的匹配行一起返回

匹配键基于定义邮政数据的列的选择。我正在研究如何定义匹配阈值,并为重复管理的唯一地址分配唯一密钥。这也被称为持家,这意味着新的匹配不会减少处理

真正的挑战是为非常大的文件高效地运行主匹配循环

这个设置可能是map/reduce的一个很好的候选者,但我现在想探索自包含的(如“不那么天真”)解决方案

我已经检查过了,但是由于正确的表被反复访问,因此可能会有一个特定于此练习的最佳结构

有什么想法吗?谢谢

import csv
import StringIO
from fuzzywuzzy import fuzz

cols1 = [ 1 , 3 , 4]
f1 = '''x1,x2,x3,x4,x5
     the,quick,brown,fox,jumps
     over,the,lazy,dogs,back,
     bla,bla,bla,bla,bla'''

 cols2 = [ 2 , 3 , 4]
 f2 = '''x1,x2,x3,x4,x5
      the,fast,brown,fox,jumps
      over,many,snoozing,dogs,back,
      the,prompt,fuchsia,fox,jumps
      over,the,lazy,dogs,back,
      bl,the,bl,bl,fox'''


 def standardize( x , selection , field_lengths=None ):
     y = ','.join([ x[selection[i]] for i in range(len(selection)) ])
     return y

 f1 = StringIO.StringIO(f1)
 f2 = StringIO.StringIO(f2)

 reader1 = csv.reader( f1 )
 reader2 = csv.reader( f2 )

 keys2 = []
 for row in reader2:
     # standardize and load key
     keys2.append( standardize( row , cols2 ) )

 for row in reader1:
     # standardize and compare
     key1 = standardize( row , cols1 )
     # ------------------------------------------------
     matches = [ fuzz.ratio( key1 , k) for k in keys2 ]
     # ------------------------------------------------
     max_match = max( matches )
     max_pos = [i for i, x in enumerate(matches) if x == max_match ][0]
     print key1 , "-->" , keys2[max_pos] , ':' , max_match

如果您非常关心内存,您可以避免在上一个循环中分配
list
s,执行如下操作:
max\u pos,max\u match=max(((i,enumerate(keys2)中i,k的fuzz.ratio(key1,k)),key=lambda x:(x[1],x[0]);print key1,“-->”,keys2[max\u pos],“:”,max_match
。最快、最简单的方法是将数据加载到数据库中,并在键上添加索引。索引是您想要的,但重新创建数据库以实现这一内存效率将是一项相当大的工作。文件是否有可能排序?Bakuriu:很好,谢谢。Jochen:我正在使用sqlite3对键进行索引两个地址文件的zipcode都是匹配的。Alexis:这些文件没有排序。两个文件中关键字段的拼写变化会不会击败预排序方法?