如何使用awk计算蛋白质序列中特定残基的总数?
我有一些蛋白质序列。我想计算每个序列中A和L残基的总数如何使用awk计算蛋白质序列中特定残基的总数?,awk,Awk,我有一些蛋白质序列。我想计算每个序列中A和L残基的总数 >p1 ALASDEKI >p2 KLHMNA >p3 GQMLAALM 期望输出 ptn A+L p1 3 p2 2 p3 4 如何使用awk实现这一点?文件中的记录跨越多行。因此,您可以使用awk-vrs='选项 命令 输出 欢迎来到堆栈溢出!我们鼓励你这样做。如果您有,请将其添加到问题中-如果没有,请先研究并尝试您的问题,然后再回来。 sed 's/>/\n/' input |
>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM
期望输出
ptn A+L
p1 3
p2 2
p3 4
如何使用awk实现这一点?文件中的记录跨越多行。因此,您可以使用awk
-vrs='
选项
命令
输出
欢迎来到堆栈溢出!我们鼓励你这样做。如果您有,请将其添加到问题中-如果没有,请先研究并尝试您的问题,然后再回来。
sed 's/>/\n/' input |
awk -vRS='' -vOFS='\t' '
BEGIN{
print "ptn","A+L"
}
{
gsub(/[^AL]/,"",$2)
print $1,length($2)
}'
ptn A+L
p1 3
p2 2
p3 4