Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sockets/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Io 我怎样才能找到&;是否从约800gb的文本文件中删除重复字符串?_Io_Bigdata - Fatal编程技术网

Io 我怎样才能找到&;是否从约800gb的文本文件中删除重复字符串?

Io 我怎样才能找到&;是否从约800gb的文本文件中删除重复字符串?,io,bigdata,Io,Bigdata,我有一个大约800gb的文本文件数据集,总共有大约50k.txt文件 我想通过这些文件创建一个master.txt文件,并从所有txt文件中删除所有重复的行 我找不到一种方法可以让我的电脑不需要几个月的时间来处理这个问题,理想的情况是我想让它保持在一周以内。sort-u clean.txt sort -u <data.txt >clean.txt 你所需要的只是一个大磁盘 sort非常有效:它会自动将文件分割成可管理的部分,分别对每个部分进行排序,然后合并它们(这可以在O(N)时

我有一个大约800gb的文本文件数据集,总共有大约50k.txt文件

我想通过这些文件创建一个master.txt文件,并从所有txt文件中删除所有重复的行

我找不到一种方法可以让我的电脑不需要几个月的时间来处理这个问题,理想的情况是我想让它保持在一周以内。

sort-u clean.txt
sort -u <data.txt >clean.txt
你所需要的只是一个大磁盘


sort
非常有效:它会自动将文件分割成可管理的部分,分别对每个部分进行排序,然后合并它们(这可以在O(N)时间内完成);合并时,它将丢弃重复项(由于
-u
选项)。但是您至少需要用于输出文件的空间,以及用于所有中间文件的空间。

是否有方法针对目录中的所有文件递归执行此操作?当然,类似于
find path/to/files-name'*.txt'-exec bash-c'sort-u clean-{}