Amazon ec2 grep会产生比原始文件更多的行_Amazon Ec2_Grep_Cloud

Amazon ec2 grep会产生比原始文件更多的行

amazon-ec2 grep cloud

Amazon ec2 grep会产生比原始文件更多的行,amazon-ec2,grep,cloud,Amazon Ec2,Grep,Cloud,我正在使用两个互斥的正则表达式来过滤行，对一些非常大的csv文件（每个文件大约2400万行）进行灰显。我不能共享正则表达式或文件（不是说你想下载它们）其思想是，匹配正则表达式A的行通过管道传输到文件A中。匹配正则表达式B的行通过管道传输到文件B中在这个过程完成后，我得到的结果是目标文件中增加了大约500万行正则表达式保证是互斥的，并且行计数是正确的该任务正在AmazonEC2节点上运行。有人在云中运行grep时见过这种问题吗？使用awk似乎可以解决这个问题谢谢你，巴尔马显示你的gre

我正在使用两个互斥的正则表达式来过滤行，对一些非常大的csv文件（每个文件大约2400万行）进行灰显。我不能共享正则表达式或文件（不是说你想下载它们）

其思想是，匹配正则表达式A的行通过管道传输到文件A中。匹配正则表达式B的行通过管道传输到文件B中

在这个过程完成后，我得到的结果是目标文件中增加了大约500万行

正则表达式保证是互斥的，并且行计数是正确的

该任务正在AmazonEC2节点上运行。有人在云中运行grep时见过这种问题吗？

使用awk似乎可以解决这个问题

谢谢你，巴尔马

显示你的grep语句…好的。。。它类似于：grep“^x”someFile.csv>>FileA.csv grep“^y”someFile.csv>>FileB.csv，其中所有行都以x或y开头。你是说你得到的行与regexp不匹配吗？不，我希望这么简单。根据我回应艾哈迈德·马苏德的例子，someFile.csv会说。。。1亿行（实际上分为4个文件），文件A和文件B中的行数之和最终为1.05亿行。awk比grep更好，因为它可以一次写入两个文件。