Bash 当文件中的字段匹配时，在csv中求和多行_Bash_Shell_Awk

Bash 当文件中的字段匹配时，在csv中求和多行

bash shell awk

Bash 当文件中的字段匹配时，在csv中求和多行,bash,shell,awk,Bash,Shell,Awk,我有一个文件，我已将其修剪为如下所示： "Reno","40.00" "Reno","40.00" "Reno","80.00" "Reno","60.00" "Lakewood","150.00" "Altamonte Springs","50.25" "Altamonte Springs","25.00" "Altamonte Springs","25.00" "Sandpoint","50.00" "Lenoir City","987.00" sed 's/"//g' input.csv

我有一个文件，我已将其修剪为如下所示：

"Reno","40.00"
"Reno","40.00"
"Reno","80.00"
"Reno","60.00"
"Lakewood","150.00"
"Altamonte Springs","50.25"
"Altamonte Springs","25.00"
"Altamonte Springs","25.00"
"Sandpoint","50.00"
"Lenoir City","987.00"

sed 's/"//g' input.csv | awk -F "," '{array[$1]+=$2} END { for (i in array) {printf "\"%s\",\"%\"\n", i, array[i]}}' > output.csv

等等

我想得到的是每个城市的总金额。即:

"Reno","220.00"
"Lakewood","150.00"
"Altamonte Springs","100.25"

等等

公平的警告，数据集不一定是连续的，也就是说，一个城市可能在这里出现一次，向下出现一千行，最后再出现三次

我一直在尝试使用以下awk脚本：

awk -F "," '{array[$1]+=$2} END { for (i in array) {print i"," array[i]}}' test1.csv > test6.csv

我得到的结果如下所示：

"Matawan",0
"Bay Side",0
"Pataskala",0
"Dorothy",0
"Haymarket",0
"Myrtle Point",0

sed 's/"//g' file.csv | awk -F "," '{array[$1]+=$2}END{for(i in array) {print "\""  i "\""  ","  "\"" array[i] "\"" }}' 

"Lenoir City","987"
"Reno","220"
"Lakewood","150"
"Sandpoint","50"
"Altamonte Springs","100.25"

等等。第二列上全是零，没有引号

很明显我遗漏了一些东西，但我不知道该看什么，也不知道该去哪里。我错过了什么

谢谢。

您失败的原因是因为双引号

这样做：

"Matawan",0
"Bay Side",0
"Pataskala",0
"Dorothy",0
"Haymarket",0
"Myrtle Point",0

sed 's/"//g' file.csv | awk -F "," '{array[$1]+=$2}END{for(i in array) {print "\""  i "\""  ","  "\"" array[i] "\"" }}' 

"Lenoir City","987"
"Reno","220"
"Lakewood","150"
"Sandpoint","50"
"Altamonte Springs","100.25"

“

导致您的输入出现问题。首先使用

sed

删除它们，然后使用

printf

内部

awk

请尝试以下操作：

"Reno","40.00"
"Reno","40.00"
"Reno","80.00"
"Reno","60.00"
"Lakewood","150.00"
"Altamonte Springs","50.25"
"Altamonte Springs","25.00"
"Altamonte Springs","25.00"
"Sandpoint","50.00"
"Lenoir City","987.00"

sed 's/"//g' input.csv | awk -F "," '{array[$1]+=$2} END { for (i in array) {printf "\"%s\",\"%\"\n", i, array[i]}}' > output.csv

混乱输入

"Reno","40.00"
"Reno","60.00"
"Lakewood","150.00"
"Altamonte Springs","50.25"
"Altamonte Springs","25.00"
"Reno","80.00"
"Sandpoint","50.00"
"Reno","40.00"
"Lenoir City","987.00"
"Altamonte Springs","25.00"

"Reno","220.00"
"Altamonte Springs","100.25"
"Lakewood","150.00"
"Lenoir City","987.00"
"Sandpoint","50.00"

输出

"Reno","40.00"
"Reno","60.00"
"Lakewood","150.00"
"Altamonte Springs","50.25"
"Altamonte Springs","25.00"
"Reno","80.00"
"Sandpoint","50.00"
"Reno","40.00"
"Lenoir City","987.00"
"Altamonte Springs","25.00"

"Reno","220.00"
"Altamonte Springs","100.25"
"Lakewood","150.00"
"Lenoir City","987.00"
"Sandpoint","50.00"

此awk one liner将提供您想要的格式：

awk -F'","' '{a[$1]+=$2*1}END{for (x in a)printf "%s\",\"%.2f\"\n", x,a[x]}' file

使用您的数据进行测试：

kent$  cat f
"Reno","40.00"
"Reno","40.00"
"Reno","80.00"
"Reno","60.00"
"Lakewood","150.00"
"Altamonte Springs","50.25"
"Altamonte Springs","25.00"
"Altamonte Springs","25.00"
"Sandpoint","50.00"
"Lenoir City","987.00"

kent$  awk -F'","' '{a[$1]+=$2*1}END{for (x in a)printf "%s\",\"%.2f\"\n", x,a[x]}' f
"Lakewood","150.00"
"Reno","220.00"
"Lenoir City","987.00"
"Sandpoint","50.00"
"Altamonte Springs","100.25"

您不需要预处理或恶意转义：

$ awk -F'"' '{a[$2]+=$4}END{for(k in a)printf "%s,%s\n",FS k FS,FS a[k] FS}' file
"Lenoir City","987"
"Reno","220"
"Lakewood","150"
"Sandpoint","50"
"Altamonte Springs","100.25"

这将完全去除引号。OP希望在输出中使用引号。如果您愿意，我可以去掉最后一个

sed

，并且只使用

awk

去掉最后一个

sed

！=只使用

awk

sed's/“/g'

tr-d\“

@twalberg，谢谢，这样做更好。理论上我只能使用

awk

，但它需要更多的输入。