Awk 用正则表达式提取子串_Awk

Awk 用正则表达式提取子串

awk

Awk 用正则表达式提取子串,awk,Awk,我有以下文件： > cat hit.txt | head gene.69778.3.0.p1 gene.65186.0.2.p1 chr11_pilon3.g961.t1 gene.3169.3.4.p1 chr11_pilon3.g3568.t1 gene.1708.8.0.p1 gene.41465.0.3.p1 chr04_pilon3.g11582.t1 gene.101930.0.1.p1 gene.93918.0.0.p1 gene.65186.8.2.p1 我想得到这个输出

我有以下文件：

> cat hit.txt | head
gene.69778.3.0.p1
gene.65186.0.2.p1
chr11_pilon3.g961.t1
gene.3169.3.4.p1
chr11_pilon3.g3568.t1
gene.1708.8.0.p1
gene.41465.0.3.p1
chr04_pilon3.g11582.t1
gene.101930.0.1.p1
gene.93918.0.0.p1
gene.65186.8.2.p1

我想得到这个输出：

gene.69778
gene.65186
gene.3169
gene.1708
gene.41465
gene.101930
gene.93918
gene.65186

我只能算出

awk'$1~/^gene/'

。如何获得上述输出？

您可以使用

awk -F. '$1 == "gene"{print $1"."$2}'  hit.txt > results.txt

字段分隔符设置为一个点，如果字段1等于

gene

，则字段1和2中的值用一个点连接并打印

见：

s='gene.69778.3.0.p1
基因65186.0.2.p1
chr11_pilon3.g961.t1
基因3169.3.4.p1
chr11_pilon3.g3568.t1
基因1708.8.0.p1
基因41465.0.3.p1
chr04_pilon3.g11582.t1
基因101930.0.1.p1
基因93918.0.0.p1
基因65186.8.2.p1
'
awk-F.'$1==“gene”{print$1.“$2}”results.txt

看。详情：

```
^
```
-字符串的开头
```
基因\.
```
-
```
基因。
```
```
[0-9]\{1，\}
```
-一个或多个数字

sed

sed-nE的/^（基因\[0-9]+）./\1/p'hit.txt
基因69778
基因65186
基因3169
基因1708
基因41465
基因101930
基因93918
基因65186

工作原理：

```
-n
```
：禁用正常输出
```
-E
```
：启用扩展正则表达式
```
^（基因\[0-9]+）
```
：在开始时匹配
```
基因。
```
并在组1中捕获
```
*
```
：匹配剩余字符串
```
\1
```
：返回对组1的引用
```
p
```
：打印替换的子字符串

gnu awk

awk'/^gene\./{print gensub（/^（gene\[0-9]+）.*/，“\\1”，“1”）}hit.txt
基因69778
基因65186
基因3169
基因1708
基因41465
基因101930
基因93918
基因65186

$ awk 'match($0,/^gene\.[^.]+/){print substr($0,RSTART,RLENGTH)}' file
gene.69778
gene.65186
gene.3169
gene.1708
gene.41465
gene.101930
gene.93918
gene.65186

awk

split（）

awk  '$0 ~ /^gene/ {split($0,a,/\./,sep);print a[1]sep[1]a[2]}' file
gene.69778
gene.65186
gene.3169
gene.1708
gene.41465
gene.101930
gene.93918
gene.65186

egrep

egrep-o'^gene\[0-9]+'file>newfile

grep

grep-oE'^gene\[0-9]+'hit.txt>results.txt

egrep

grep-E

egrep

grep-E