Unix 按相同出现次数对列进行排序-使用awk、Sort、tr或uniq？_Unix_Sorting_Awk_Tr_Uniq

Unix 按相同出现次数对列进行排序-使用awk、Sort、tr或uniq？

unix sorting awk

Unix 按相同出现次数对列进行排序-使用awk、Sort、tr或uniq？,unix,sorting,awk,tr,uniq,Unix,Sorting,Awk,Tr,Uniq,假设我有一些选项卡分隔的数据： Peter 5 Joe 8 Peter 7 Peter 8 Joe 4 Laura 3 我想按照名字出现在第一列的次数（从最大到最小）对它进行排序所以我们有彼得（3次）、乔（2次）和劳拉（1次）它只需要按第一列排序，而不需要按第二列排序。我一直在阅读sort的文档，我认为它没有功能。有人有简单的方法吗？不性感，但适合你的例子： awk 'NR==FNR{a[$1]++;next}{ print a[$1],$0}' fil

假设我有一些选项卡分隔的数据：

Peter   5
Joe     8
Peter   7
Peter   8
Joe     4
Laura   3

我想按照名字出现在第一列的次数（从最大到最小）对它进行排序所以我们有彼得（3次）、乔（2次）和劳拉（1次）

它只需要按第一列排序，而不需要按第二列排序。我一直在阅读sort的文档，我认为它没有功能。有人有简单的方法吗？

不性感，但适合你的例子：

 awk  'NR==FNR{a[$1]++;next}{ print a[$1],$0}' file file|sort -nr|sed -r 's/[0-9]* //'

使用您的数据进行测试：

kent$  cat n.txt
Peter   5
Joe     8
Peter   7
Peter   8
Joe     4
Laura   3

kent$  awk  'NR==FNR{a[$1]++;next}{ print a[$1],$0}' n.txt n.txt|sort -nr|sed -r 's/[0-9]* //'
Peter   8
Peter   7
Peter   5
Joe     8
Joe     4
Laura   3

不性感但适合你的例子：

 awk  'NR==FNR{a[$1]++;next}{ print a[$1],$0}' file file|sort -nr|sed -r 's/[0-9]* //'

使用您的数据进行测试：

kent$  cat n.txt
Peter   5
Joe     8
Peter   7
Peter   8
Joe     4
Laura   3

kent$  awk  'NR==FNR{a[$1]++;next}{ print a[$1],$0}' n.txt n.txt|sort -nr|sed -r 's/[0-9]* //'
Peter   8
Peter   7
Peter   5
Joe     8
Joe     4
Laura   3

这项工作：

for person in $(awk '{print $1}' file.txt | sort | uniq -c | sort -dnr | awk '{print $2}');
do grep -e "^$person[[:space:]]" file.txt;
done

这项工作：

for person in $(awk '{print $1}' file.txt | sort | uniq -c | sort -dnr | awk '{print $2}');
do grep -e "^$person[[:space:]]" file.txt;
done

这里有一种使用

GNU awk

的方法。运行方式如下：

awk -f script.awk file

script.awk的内容

：

BEGIN {
    FS="\t"
}

{
    c[$1]++
    r[$1] = (r[$1] ? r[$1] ORS : "") $0
}

END {

    for (i in c) {
        a[c[i],i] = i
    }

    n = asorti(a)

    for (i=1;i<=n;i++) {
        split(a[i], b, SUBSEP)
        x[++j] = b[2]
    }

    for (i=n;i>=1;i--) {
        print r[x[i]]
    }
}

这里有一种使用

GNU awk

的方法。运行方式如下：

awk -f script.awk file

script.awk的内容

：

BEGIN {
    FS="\t"
}

{
    c[$1]++
    r[$1] = (r[$1] ? r[$1] ORS : "") $0
}

END {

    for (i in c) {
        a[c[i],i] = i
    }

    n = asorti(a)

    for (i=1;i<=n;i++) {
        split(a[i], b, SUBSEP)
        x[++j] = b[2]
    }

    for (i=n;i>=1;i--) {
        print r[x[i]]
    }
}

这是一个非常难的排序标准。这段代码可以工作，但非常难看：

data=${1:-data}
awk '{ print $1 }' $data |
sort |
uniq -c |
sort -k2 |
join -1 2 -2 2 -o 1.1,2.1,2.2,2.3 - <(awk '{ print NR, $0 }' $data | sort -k2) |
sort -k1,1nr -k3,3 -k2n |
awk 'BEGIN{OFS="\t"} { print $3, $4 }'

使用带有内置排序的GNU

awk

，或者Perl或Python，可能比这更好

对于原始数据，输出为：

Peter   5
Peter   7
Peter   8
Joe     8
Joe     4
Laura   3

Peter   5
Peter   7
Peter   8
Peter   50
Peter   70
Peter   80
Peter   700
Peter   800
Peter   7002
Peter   8002
Peter   7000
Peter   8000
Peter   7001
Peter   8001
Joe     8
Joe     4
Joe     80
Joe     40
Laura   3
Laura   30
Laura   30
Pater   50
Pater   70
Pater   80
Jae     80
Jae     40

鉴于此数据的扩展版本：

Peter   5
Joe     8
Peter   7
Peter   8
Joe     4
Laura   3
Peter   50
Joe     80
Peter   70
Peter   80
Joe     40
Laura   30
Peter   700
Peter   800
Peter   7002
Peter   8002
Peter   7000
Peter   8000
Peter   7001
Peter   8001
Pater   50
Jae     80
Pater   70
Pater   80
Jae     40
Laura   30

输出为：

Peter   5
Peter   7
Peter   8
Joe     8
Joe     4
Laura   3

Peter   5
Peter   7
Peter   8
Peter   50
Peter   70
Peter   80
Peter   700
Peter   800
Peter   7002
Peter   8002
Peter   7000
Peter   8000
Peter   7001
Peter   8001
Joe     8
Joe     4
Joe     80
Joe     40
Laura   3
Laura   30
Laura   30
Pater   50
Pater   70
Pater   80
Jae     80
Jae     40

-k3,3

排序项对于该数据集是必需的；它在Pater的条目之前对Laura的条目进行排序（省略时，这两个列表交错排列）。