Amazon ec2 grep会产生比原始文件更多的行

Amazon ec2 grep会产生比原始文件更多的行,amazon-ec2,grep,cloud,Amazon Ec2,Grep,Cloud,我正在使用两个互斥的正则表达式来过滤行,对一些非常大的csv文件(每个文件大约2400万行)进行灰显。我不能共享正则表达式或文件(不是说你想下载它们) 其思想是,匹配正则表达式A的行通过管道传输到文件A中。匹配正则表达式B的行通过管道传输到文件B中 在这个过程完成后,我得到的结果是目标文件中增加了大约500万行 正则表达式保证是互斥的,并且行计数是正确的 该任务正在AmazonEC2节点上运行。有人在云中运行grep时见过这种问题吗?使用awk似乎可以解决这个问题 谢谢你,巴尔马 显示你的gre

我正在使用两个互斥的正则表达式来过滤行,对一些非常大的csv文件(每个文件大约2400万行)进行灰显。我不能共享正则表达式或文件(不是说你想下载它们)

其思想是,匹配正则表达式A的行通过管道传输到文件A中。匹配正则表达式B的行通过管道传输到文件B中

在这个过程完成后,我得到的结果是目标文件中增加了大约500万行

正则表达式保证是互斥的,并且行计数是正确的


该任务正在AmazonEC2节点上运行。有人在云中运行grep时见过这种问题吗?

使用awk似乎可以解决这个问题


谢谢你,巴尔马

显示你的grep语句…好的。。。它类似于:grep“^x”someFile.csv>>FileA.csv grep“^y”someFile.csv>>FileB.csv,其中所有行都以x或y开头。你是说你得到的行与regexp不匹配吗?不,我希望这么简单。根据我回应艾哈迈德·马苏德的例子,someFile.csv会说。。。1亿行(实际上分为4个文件),文件A和文件B中的行数之和最终为1.05亿行。awk比grep更好,因为它可以一次写入两个文件。