Python中迭代大文件的最有效方法（10GB+；）_Python_File_Design Patterns_Matching

Python中迭代大文件的最有效方法（10GB+；）

python file design-patterns

Python中迭代大文件的最有效方法（10GB+；）,python,file,design-patterns,matching,Python,File,Design Patterns,Matching,我正在编写一个Python脚本来遍历两个文件——一个包含UUID列表，另一个包含大量日志条目——每行包含另一个文件中的一个UUID。该程序的目的是从文件1创建一个UUID列表，然后每次在日志文件中找到UUID时，在每次找到匹配项时增加相关值长话短说，计算每个UUID在日志文件中出现的次数。目前，我有一个列表，其中UUID作为键填充，“hits”作为值填充。然后是另一个循环，循环遍历日志文件的每一行，并检查日志中的UUID是否与UUID列表中的UUID匹配。如果匹配，则递增该值 for

我正在编写一个Python脚本来遍历两个文件——一个包含UUID列表，另一个包含大量日志条目——每行包含另一个文件中的一个UUID。该程序的目的是从文件1创建一个UUID列表，然后每次在日志文件中找到UUID时，在每次找到匹配项时增加相关值

长话短说，计算每个UUID在日志文件中出现的次数。目前，我有一个列表，其中UUID作为键填充，“hits”作为值填充。然后是另一个循环，循环遍历日志文件的每一行，并检查日志中的UUID是否与UUID列表中的UUID匹配。如果匹配，则递增该值

    for i, logLine in enumerate(logHandle):         #start matching UUID entries in log file to UUID from rulebase
        if logFunc.progress(lineCount, logSize):    #check progress
            print logFunc.progress(lineCount, logSize)  #print progress in 10% intervals
        for uid in uidHits:
            if logLine.count(uid) == 1:             #for each UUID, check the current line of the log for a match in the UUID list
                uidHits[uid] += 1                   #if matched, increment the relevant value in the uidHits list
                break                                #as we've already found the match, don't process the rest
        lineCount += 1

它可以正常工作，但我相信有一种更有效的方法来处理文件。我阅读了一些指南，发现使用“count”比使用编译的正则表达式要快。我认为分块而不是逐行读取文件可以减少磁盘I/O时间，从而提高性能，但测试文件~200MB的性能差异是可以忽略的。如果有人有其他方法，我将非常感激：）

从功能上思考

编写一个函数，它将获取日志文件的一行并返回uuid。比如说，把它称为uuid

将此函数应用于日志文件的每一行。如果您使用的是Python 3，则可以使用内置函数映射；否则，您需要使用itertools.imap

将此迭代器传递给collections.Counter

collections.Counter(map(uuid, open("log.txt")))

这将是非常有效的

有几点意见：

这将完全忽略UUID列表，只计算日志文件中出现的UUID。如果您不想这样做，您需要对程序进行一些修改
- 因为使用了错误的数据结构，所以代码速度很慢。你在这里想要的就是口述

uuid_generator = (line.split(SPLIT_CHAR)[UUID_FIELD] for line in file)

cut -d${SPLIT_CHAR} -f${UUID_FIELD} log_file.txt | sort | uniq -c

uidHits.keys（）

lineCount

find（uid）！=-如果行很长，1