使用bash或python从文本文件中提取子结构
我有一个巨大的文本文件,其结构如下:使用bash或python从文本文件中提取子结构,python,bash,Python,Bash,我有一个巨大的文本文件,其结构如下: SET TAG1 ... ... SET ... SET TAG2 ... ... SET ... ... 我想提取特定标签(即TAG54)的单个“子结构”,即 SET TAG54 ... ... SET 对于给定的标签i,每个子结构始终包含: 第一行:设置 第二行:TAG_i(在本例中为TAG54) 任意数量的行 最后一行:SET 我想知道做这件事的最佳方法是什么,无论是在bash还是python中,因此对于给定的标记,可以“提取”这个子结构 谢谢这里
SET
TAG1
...
...
SET
...
SET
TAG2
...
...
SET
...
...
我想提取特定标签(即TAG54)的单个“子结构”,即
SET
TAG54
...
...
SET
对于给定的标签i,每个子结构始终包含:
第一行:设置
第二行:TAG_i(在本例中为TAG54)
任意数量的行
最后一行:SET
我想知道做这件事的最佳方法是什么,无论是在bash还是python中,因此对于给定的标记,可以“提取”这个子结构
谢谢这里有一种Python方法:您将打开的文件句柄作为第一个参数传递,将标记号作为第二个参数传递,然后作为结果返回相关行的列表(包括换行符),如果在文件中找不到标记,则返回空行:
def lookfor(f, tagnum):
tag = 'TAG%s\n' % tagnum
for line in f:
if line == tag:
break
else: # file finished, tag not found
return []
result = ['SET\n', tag]
for line in f:
result.append(line)
if line == 'SET\n':
break
return result
这应该是相当好的表现。如果您想要其他形式的参数和/或结果,当然,相应地调整也不难。如果您的系统的
grep
支持-p
for perl regexp:
grep -P 'SET\nTAG54\n[.\n]*\nSET' file.txt
目瞪口呆:
如果使用shell脚本编写,请使用-v
将shell变量传递到awk
。乙二醇
#!/bin/bash
read -r -p "what's your tag? " tag
awk -vRS="SET" -vt="$tag" '$0~tag{print RT$0RT}' file
这不是一个很好的解决方案,但是您可以在python中使用my bad regex:/TAG\d++(.++)SET/gsm有一种更好的方法来换行,但是我使用的regex工具不喜欢它们。您好,您的方法非常好而且简单!我忘了提到,我还需要在文件的开头和结尾有“SET”的行,但我会自己做。谢谢,没用。你能告诉我每个部分都做什么吗?非常感谢
grep
是一个搜索工具;-P
选项使grep
使用perl类型的regexp(您的系统可能不支持-P
)'SET\nTAG54\n[.\n]*\nSET'
是要匹配的正则表达式:SET
后跟一个换行符,后跟TAG54
和一个换行符,然后是任意字符和/或换行符(.\n]
)的任意数(*
),一个换行符和SET
file.txt
是要搜索的文件名。
BEGIN {
state=0
}
state==0 && $0=="TAG54" {
print "SET"
state=1
}
state==1 {
print
}
state==1 && $0=="SET" {
exit
}
$ awk -vRS="SET" '/TAG54/{print RT$0RT}' file
SET
TAG54
...
...
SET
#!/bin/bash
read -r -p "what's your tag? " tag
awk -vRS="SET" -vt="$tag" '$0~tag{print RT$0RT}' file