AWK，从一个文件中排除与第二个文件相关的结果_Awk

AWK，从一个文件中排除与第二个文件相关的结果

awk

AWK，从一个文件中排除与第二个文件相关的结果,awk,Awk,使用Awk，我能够获得一个带有给定错误号的URL列表： awk '($9 ~ /404/)' /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn 漂亮漂亮但我们希望通过将结果与已知的404URL列表进行匹配来进一步完善它例如： awk '($9 ~ /404/)' /var/log/nginx/access.log | awk '{print $7} '| sort | uniq -c | so

使用Awk，我能够获得一个带有给定错误号的URL列表：

awk '($9 ~ /404/)' /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn

漂亮漂亮

但我们希望通过将结果与已知的404URL列表进行匹配来进一步完善它

例如：

awk '($9 ~ /404/)' /var/log/nginx/access.log | awk '{print  $7} '| sort | uniq -c | sort -k 2 -r |  awk '{print > "/mnt/tmp/404error.txt"}'

今日收益率：

1 /going-out/restaurants/the-current-restaurent.htm
1 /going-out/restaurants/mare.HTML
1 /going-out/report-content/?cid=5
1 /going-out/report-content/?cid=38550
1 /going-out/report-content/?cid=380

后天：

1 /going-out/ru/%d0%bd%d0%be%d1%87%d0%bd%d0%b0%d1%8f-%d0%b6%d0%b8%d0%b7%d0%bd%d1%8c-%d0%bd%d0%b0-%d0%bf%d1%85%d1%83%d0%ba%d0%b5%d1%82%d0%b5/%d1%81%d0%be%d0%b2%d0%b5%d1%82%d1%8b-%d0%bb%d1%8e%d0%b1%d0%b8%d1%82%d0%b5%d0%bb%d1%8f%d0%bc-%d0%bd%d0%be%d1%87%d0%bd%d1%8b%d1%85-%d1%80%d0%b0%d0%b7%d0%b2%d0%bb%d0%b5%d1%87%d0%b5%d0%bd%d0%b8%d0%b9/
1 /going-out/restaurants/the-current-restaurent.htm
1 /going-out/restaurants/mare.HTML
1 /going-out/report-content/?cid=5
1 /going-out/report-content/?cid=38550
1 /going-out/report-content/?cid=380
1 /going-out/report-content/?cid=29968
1 /going-out/report-content/?cid=29823

目标是只拥有新的URL

在这一点上，我迷路了，我知道我可以将第一个文件放入一个数组中，我假设我可以对第二个文件（但在第二个数组中）执行相同的操作，然后可能（不确定awk是否有容量）简单地将它们交叉，并保留不匹配的内容

非常感谢您的帮助。

您可以使用

grep--fixed strings--file=FILEALL FILENEW

或

comm-23 FILENEW FILEALL

。FILEALL是包含已经找到的URL的文件，FILENEW包含今天找到的页面。对于

comm

，必须对两个文件进行排序

我认为

comm

效率更高，因为我使用了排序文件，但我没有对此进行测试。

您可以使用

grep--fixed strings--file=FILEALL FILENEW

或

comm-23 FILENEW FILEALL

进行此操作。FILEALL是包含已经找到的URL的文件，FILENEW包含今天找到的页面。对于

comm

，必须对两个文件进行排序

我认为

comm

效率更高，因为我使用了排序文件，但我没有对此进行测试。

因此您有一个文件，其

$9

字段可能与

/404/

匹配。如果是，则要存储第7个字段。然后，计算它们总共出现了多少，但前提是它们以前没有出现在您拥有的文件中

我认为所有这些都可以用这个来完成（未经测试，因为我没有样本输入数据）：

这会将包含数据的文件的第二列存储到数组

seen[]

。然后，遍历新文件并存储第7列（如果以前未看到）。最后，它打印计数器

因为它看起来像是一个旧的

awk

版本，不支持数组中的语法

索引

，所以可以使用以下解决方法：

$9 ~ /404/ {for (i in seen) {if (i==$7) next} a[$7]++}

注意：您必须使用非常旧的版本，因为它是在1987年推出的：

awk语言在版本7发布之后有了很大的发展 Unix（1978）和最初普遍制造的新版本在System V版本3.1（1987）中提供。本节总结了更改，包括更多详细信息的交叉引用：

for语句外部的表达式“indx in array”（请参阅参考要素）

因此，您有一个文件，其

$9