使用shell脚本解析数据。（分拣/uniq/grep）_Shell_Parsing_For Loop

使用shell脚本解析数据。（分拣/uniq/grep）

shell parsing for-loop

使用shell脚本解析数据。（分拣/uniq/grep）,shell,parsing,for-loop,Shell,Parsing,For Loop,我想在strand（第8列）和tss（第5列）的基础上检索每个ref基因（第7列）的uniq count（第4列）行。如果一个ref基因的计数数相同，并且它位于负链上，则保持该行具有最高tss，同样如果一个ref基因的计数数相同，并且它位于正链上，则保持该行tss最低我正在处理以下格式的dat： CHR TSS-25bp TSS+25bp count tss Ensemble transcript refgene strand chr15 79554474 795

我想在strand（第8列）和tss（第5列）的基础上检索每个ref基因（第7列）的uniq count（第4列）行。如果一个ref基因的计数数相同，并且它位于负链上，则保持该行具有最高tss，同样如果一个ref基因的计数数相同，并且它位于正链上，则保持该行tss最低

我正在处理以下格式的dat：

CHR TSS-25bp    TSS+25bp    count   tss Ensemble transcript refgene strand
chr15   79554474    79554524    2   79554499    ENSMUST00000089311  Sun2    -
chr15   79554475    79554525    2   79554500    ENSMUST00000100439  Sun2    -
chr15   79554477    79554527    2   79554502    ENSMUST00000046259  Sun2    -
chr15   79569054    79569104    1   79569079    ENSMUST00000159660  Sun2    -
chr15   79570243    79570293    4   79570268    ENSMUST00000160355  Sun2    -
chr17   44914075    44914125    2   44914100    ENSMUST00000050630  Supt3h  +
chr17   44914248    44914298    3   44914273    ENSMUST00000130623  Supt3h  +
chr17   44914319    44914369    3   44914344    ENSMUST00000127798  Supt3h  +
chr11   87551028    87551078    2   87551053    ENSMUST00000152700  Supt4h1 +
chr11   87551029    87551079    2   87551054    ENSMUST00000141169  Supt4h1 +
chr7    29099891    29099941    2   29099916    ENSMUST00000003527  Supt5h  -
chr11
78020504    78020554    3   78020529    ENSMUST00000108314  Supt6h  -

我希望输出中会出现以下情况：

CHR TSS-25bp    TSS+25bp    count   tss Ensemble transcript refgene strand
chr15   79554477    79554527    2   79554502    ENSMUST00000046259  Sun2    -
chr15   79569054    79569104    1   79569079    ENSMUST00000159660  Sun2    -
chr15   79570243    79570293    4   79570268    ENSMUST00000160355  Sun2    -
chr17   44914075    44914125    2   44914100    ENSMUST00000050630  Supt3h  +
chr17   44914248    44914298    3   44914273    ENSMUST00000130623  Supt3h  +
chr11   87551028    87551078    2   87551053    ENSMUST00000152700  Supt4h1 +
chr7    29099891    29099941    2   29099916    ENSMUST00000003527  Supt5h  -
chr11   78020504    78020554    3   78020529    ENSMUST00000108314  Supt6h  -

到目前为止我有这个

#!/bin/bash

example=Workbook4.txt
for gene in `cut -f7 example | uniq`
   do
   sign=`grep $gene example | cut -f8 | uniq`
   for count in `grep $gene example | cut -f4 | sort | uniq`
   do
      if [ "$sign" == "-" ]
      then
      grep $gene example | grep $count example | sort -k5 | head -1 ----
      else
      grep $gene example | grep $count example | sort -k5 | tail -1 ----
   done
   break
done

我不确定用黑体字的那个。如果你能帮我解决这个问题就太好了

这似乎给出了您想要的输出：

awk '
    NR==1 {print; next} 
    {key = $4 SUBSEP $7 SUBSEP $8}
    !(key in line) || ($8 == "-" && $5 > tss[key]) || ($8 == "+" && $5 < tss[key]) {
        line[key] = $0
        tss[key] = $5
    }
    END {for (key in line) print line[key]}
' file

非常感谢你。这正是我想要的！！欢迎来到StackOverflow。如果我更改了逻辑，您可能会想通读代码发生了什么。我现在感兴趣的是检索每个ref基因（第7列）都有最大计数（第4列）的命中。如果该特定基因的计数相同，则保留tss最低的基因（第5列），如果是+（第8列），保留tss最高的基因（第5列），如果是-（第8列）。轻率地说，如果更改逻辑，代码也必须更改。我的回答中有你不明白的部分吗？如果我们解决了这个问题，您应该能够自己修改代码。“教一个人钓鱼……”只是我没用过这么大的awk命令。没想到我们也可以这样设置变量子集。

CHR TSS-25bp    TSS+25bp    count   tss Ensemble transcript refgene strand
chr11   78020504    78020554    3   78020529    ENSMUST00000108314  Supt6h  -
chr15   79569054    79569104    1   79569079    ENSMUST00000159660  Sun2    -
chr15   79554477    79554527    2   79554502    ENSMUST00000046259  Sun2    -
chr17   44914248    44914298    3   44914273    ENSMUST00000130623  Supt3h  +
chr17   44914075    44914125    2   44914100    ENSMUST00000050630  Supt3h  +
chr15   79570243    79570293    4   79570268    ENSMUST00000160355  Sun2    -
chr11   87551028    87551078    2   87551053    ENSMUST00000152700  Supt4h1 +
chr7    29099891    29099941    2   29099916    ENSMUST00000003527  Supt5h  -