Awk 从包含多组基因坐标的文件中提取一组基因坐标
给定以下文件:Awk 从包含多组基因坐标的文件中提取一组基因坐标,awk,data-manipulation,Awk,Data Manipulation,给定以下文件: NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1 NW_022983500.1 RefSeq CDS 5353 5898 . + 0 ID=cds-XP_033376630.1 NW_022983500.1 RefSeq CDS 6033 7994 . + 0 ID=cds-XP_033376630.1 NW_02298
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 5898 . + 0 ID=cds-XP_033376630.1
NW_022983500.1 RefSeq CDS 6033 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 5543 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5591 5673 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5782 5895 . + 1 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5937 6424 . + 1 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6478 6680 . + 2 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6739 6858 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6926 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5478 5513 . - 0 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5353 5419 . - 0 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5161 5297 . - 2 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5059 5115 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4415 5392 . - 1 ID=cds-XP_033376609.1
NW_022983508.1 RefSeq CDS 4215 4344 . - 1 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 2831 . + 0 ID=cds-XP_033376596.1
NW_022983512.1 RefSeq CDS 2890 3112 . + 1 ID=cds-XP_033376596.1
NW_022983512.1 RefSeq CDS 3163 3267 . + 0 ID=cds-XP_033376596.1
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5059 5513 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4215 5392 . - 0 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 3267 . + 0 ID=cds-XP_033376596.1
我想提取一组坐标(从较低的数值到较高的数值),对应于第9列中的ID,以便获得以下文件:
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 5898 . + 0 ID=cds-XP_033376630.1
NW_022983500.1 RefSeq CDS 6033 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 5543 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5591 5673 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5782 5895 . + 1 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 5937 6424 . + 1 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6478 6680 . + 2 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6739 6858 . + 0 ID=cds-XP_033376626.1
NW_022983502.1 RefSeq CDS 6926 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5478 5513 . - 0 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5353 5419 . - 0 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5161 5297 . - 2 ID=cds-XP_033376620.1
NW_022983504.1 RefSeq CDS 5059 5115 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4415 5392 . - 1 ID=cds-XP_033376609.1
NW_022983508.1 RefSeq CDS 4215 4344 . - 1 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 2831 . + 0 ID=cds-XP_033376596.1
NW_022983512.1 RefSeq CDS 2890 3112 . + 1 ID=cds-XP_033376596.1
NW_022983512.1 RefSeq CDS 3163 3267 . + 0 ID=cds-XP_033376596.1
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5059 5513 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4215 5392 . - 0 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 3267 . + 0 ID=cds-XP_033376596.1
注意,如果ID=cds-XP_033376630.1
在第7列中有正值,我需要选择第2行第4列5353
和第3行第5列7994
的值
相反,如果第7列的值为负值,如在ID=cds-XP_033376620.1
中,逻辑会反转,我需要选择第14行第4列5059
和第11行第5列5513
我对使用AWK(不是Perl或Python)来解决这个经典的生物信息学问题特别感兴趣,如果有人能为我指出正确的方向,我将不胜感激
$ cat tst.awk
$NF != prevKey {
if ( NR > 1 ) {
prt()
}
min = $4
max = $5
line = $0
prevKey = $NF
}
{
min = ($4 <= min ? $4 : min)
max = ($4 >= max ? $5 : max)
}
END { prt() }
function prt( orig) {
orig = $0
$0 = line
$4 = min
$5 = max
$8 = 0
print
$0 = orig
}
两个单独的脚本将简化逻辑,第一个脚本打印每个键的第一行和最后一行(如果有单行,则重复)。第二个脚本根据符号选择正确的值
两个单独的脚本将简化逻辑,第一个脚本打印每个键的第一行和最后一行(如果有单行,则重复)。第二个脚本根据符号选择正确的值。另一个awk
(如注释所示,还为$8添加了打印零)
输出:
> awk -f tst.awk file
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5059 5513 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4215 5392 . - 0 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 3267 . + 0 ID=cds-XP_033376596.1
另一个awk
(如注释所示,还为$8添加了打印零)
输出:
> awk -f tst.awk file
NW_022983499.1 RefSeq CDS 6883 7503 . + 0 ID=cds-XP_033376633.1
NW_022983500.1 RefSeq CDS 5353 7994 . + 0 ID=cds-XP_033376630.1
NW_022983502.1 RefSeq CDS 5391 7408 . + 0 ID=cds-XP_033376626.1
NW_022983504.1 RefSeq CDS 5059 5513 . - 0 ID=cds-XP_033376620.1
NW_022983508.1 RefSeq CDS 4215 5392 . - 0 ID=cds-XP_033376609.1
NW_022983512.1 RefSeq CDS 2650 3267 . + 0 ID=cds-XP_033376596.1
如何确定要打印的第8个字段值?例如,对于
ID=cds-XP_033376620.1
2行,第8个字段为0
,而其中一行为2
,并且在输出中打印。。。0 ID=cds-XP\U 033376620.1
-为什么不。。。2 ID=cds-XP_033376620.1
?这是一个很好的问题。文件格式为GFF3——一种经典的生物信息学文件格式。此处第8列严格定义为“阶段”。但是,对于我们来说,在这种特殊情况下,这并不重要,我们可以打印“0”。事实上,它应该是“0”,因为我们稍后将文件转换为另一种文件格式(BED-另一种生物信息学文件格式),该列将丢失。如何确定要打印的第8个字段值?例如,对于ID=cds-XP_033376620.1
2行,第8个字段为0
,而其中一行为2
,并且在输出中打印。。。0 ID=cds-XP\U 033376620.1
-为什么不。。。2 ID=cds-XP_033376620.1
?这是一个很好的问题。文件格式为GFF3——一种经典的生物信息学文件格式。此处第8列严格定义为“阶段”。但是,对于我们来说,在这种特殊情况下,这并不重要,我们可以打印“0”。事实上,它应该是“0”,因为我们稍后将该文件转换为另一种文件格式(BED-另一种生物信息学文件格式),该列将丢失。