Io 我怎样才能找到&;是否从约800gb的文本文件中删除重复字符串?

Io 我怎样才能找到&;是否从约800gb的文本文件中删除重复字符串?,io,bigdata,Io,Bigdata,我有一个大约800gb的文本文件数据集,总共有大约50k.txt文件 我想通过这些文件创建一个master.txt文件,并从所有txt文件中删除所有重复的行 我找不到一种方法可以让我的电脑不需要几个月的时间来处理这个问题,理想的情况是我想让它保持在一周以内。sort-u clean.txt sort -u <data.txt >clean.txt 你所需要的只是一个大磁盘 sort非常有效:它会自动将文件分割成可管理的部分,分别对每个部分进行排序,然后合并它们(这可以在O(N)时

我有一个大约800gb的文本文件数据集,总共有大约50k.txt文件

我想通过这些文件创建一个master.txt文件,并从所有txt文件中删除所有重复的行

我找不到一种方法可以让我的电脑不需要几个月的时间来处理这个问题,理想的情况是我想让它保持在一周以内。

sort-u clean.txt
sort -u <data.txt >clean.txt
你所需要的只是一个大磁盘


sort
非常有效:它会自动将文件分割成可管理的部分,分别对每个部分进行排序,然后合并它们(这可以在O(N)时间内完成);合并时,它将丢弃重复项(由于
-u
选项)。但是您至少需要用于输出文件的空间,以及用于所有中间文件的空间。

是否有方法针对目录中的所有文件递归执行此操作?当然,类似于
find path/to/files-name'*.txt'-exec bash-c'sort-u clean-{}