如何使用awk计算蛋白质序列中特定残基的总数?

如何使用awk计算蛋白质序列中特定残基的总数?,awk,Awk,我有一些蛋白质序列。我想计算每个序列中A和L残基的总数 >p1 ALASDEKI >p2 KLHMNA >p3 GQMLAALM 期望输出 ptn A+L p1 3 p2 2 p3 4 如何使用awk实现这一点?文件中的记录跨越多行。因此,您可以使用awk-vrs='选项 命令 输出 欢迎来到堆栈溢出!我们鼓励你这样做。如果您有,请将其添加到问题中-如果没有,请先研究并尝试您的问题,然后再回来。 sed 's/>/\n/' input |

我有一些蛋白质序列。我想计算每个序列中A和L残基的总数

>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM
期望输出

ptn   A+L

p1     3
p2     2
p3     4

如何使用awk实现这一点?

文件中的记录跨越多行。因此,您可以使用awk
-vrs='
选项

命令 输出
欢迎来到堆栈溢出!我们鼓励你这样做。如果您有,请将其添加到问题中-如果没有,请先研究并尝试您的问题,然后再回来。
sed 's/>/\n/' input |
    awk -vRS='' -vOFS='\t' '
        BEGIN{
            print "ptn","A+L"
        }
        {
            gsub(/[^AL]/,"",$2)
            print $1,length($2)
        }'
ptn A+L
p1  3
p2  2
p3  4