Python 删除文本文档中的相同条目

Python 删除文本文档中的相同条目,python,file,text,Python,File,Text,我正试图想出一个解决问题的办法。我有多个充满数据的文本文档(非常大的文件,几GB)。每个文档在每行上都有一个条目,没有空格。我需要删除出现在多个文档中的条目。但是,每个条目在每个文件中只出现一次。我已经能够在一个文档中对多个条目执行此操作,但我不知道如何处理多个文件的问题,有什么建议吗 谢谢将所有条目添加到单个集合中。集合不能包含duplicates@cricket_007如果每个文件都有几个GB,并且只有几个文件,那么您可能需要TB的RAM来创建集。我相信实现Op想要的最简单的方法是创建一个数

我正试图想出一个解决问题的办法。我有多个充满数据的文本文档(非常大的文件,几GB)。每个文档在每行上都有一个条目,没有空格。我需要删除出现在多个文档中的条目。但是,每个条目在每个文件中只出现一次。我已经能够在一个文档中对多个条目执行此操作,但我不知道如何处理多个文件的问题,有什么建议吗


谢谢

将所有条目添加到单个集合中。集合不能包含duplicates@cricket_007如果每个文件都有几个GB,并且只有几个文件,那么您可能需要TB的RAM来创建
。我相信实现Op想要的最简单的方法是创建一个数据库,并让数据库处理这个问题。或者,将文件连接到单个文件中,并使用不需要将全部内容读入RAM的算法(有专门的算法;请参阅TAOCP)对该文件进行排序,然后删除连续的重复文件。单个文件是否适合RAM?例如,您是否能够通过执行
lines=list(打开(文件)),对文件进行排序;lines.sort()
然后保存结果?能否提供一个小示例,说明正在处理的两个文件以及您希望输出的内容?将所有条目添加到单个集合中。集合不能包含duplicates@cricket_007如果每个文件都有几个GB,并且只有几个文件,那么您可能需要TB的RAM来创建
。我相信实现Op想要的最简单的方法是创建一个数据库,并让数据库处理这个问题。或者,将文件连接到单个文件中,并使用不需要将全部内容读入RAM的算法(有专门的算法;请参阅TAOCP)对该文件进行排序,然后删除连续的重复文件。单个文件是否适合RAM?例如,您是否能够通过执行
lines=list(打开(文件)),对文件进行排序;lines.sort()
然后保存结果?能否提供一个正在处理的两个文件的小示例,以及您希望输出的内容?