Python使用这些条件处理文本文件
我正在尝试用一些条件清理文本文件 我的文本显示如下 NHIST_0003(ZS.MC.BGE.0424spvco)(21.12)14.08Python使用这些条件处理文本文件,python,string,io,strip,Python,String,Io,Strip,我正在尝试用一些条件清理文本文件 我的文本显示如下 NHIST_0003(ZS.MC.BGE.0424spvco)(21.12)14.08 (ZS.MC.BLK.0424SPVCOS)(21.12)14.08 (ZS.MC.GRY.0424spvco)(21.12)14.08 (ZS.MC.BLK.0525SPCOS3)(21.12)14.08 (ZS.MC.GRY.0525SPCOS2)(21.12)14.08 NHIST_0004(ZS.MC.BGE.0424spvco)(21.12)14.
(ZS.MC.BLK.0424SPVCOS)(21.12)14.08
(ZS.MC.GRY.0424spvco)(21.12)14.08
(ZS.MC.BLK.0525SPCOS3)(21.12)14.08
(ZS.MC.GRY.0525SPCOS2)(21.12)14.08
NHIST_0004(ZS.MC.BGE.0424spvco)(21.12)14.08
我需要删除第一行前面的任何文本”(“如果该行前面有文本,则删除括号,并删除我要保留的文本的括号。我还需要删除带括号的数字。查看第一行,我只想保留 ZS.MC.BGE.0424SPVC0S14.08 这些都是我试图把事情联系起来的代码。我不想使用重新表达,因为在这个阶段对我来说太超前了
fileName='reach.txt'
fileName2='outreach.txt'
while True:
f=open(fileName,'r')
for words in f:
x=words.split('(', 1)[-1]
g = open(fileName2,'w')
g.write(x)
g.close()
这个循环是无限的。我认为关闭文件是在告诉系统停止处理行
fileName='reach.txt'
fileName2='outreach.txt'
def isfloat(s):
try:
float(s)
return True
except ValueError:
return False
g = open(fileName2, 'w')
with open(fileName, 'r') as fh:
for row in fh:
x = row.split()
for item in x:
if '(' in item and ')' in item:
first = item.strip('()')
break
for i in range(-1, 0-len(x), -1):
second = x[i]
if isfloat(second):
break
print(first, second)
g.write(' '.join((first, second)) + '\n')
g.close()
其中:
ZS.MC.BGE.0424SPVCOS 14.08
ZS.MC.BLK.0424SPVCOS 14.08
ZS.MC.GRY.0424SPVCOS 14.08
ZS.MC.BLK.0525SPVCOS3 14.08
ZS.MC.GRY.0525SPVCOS2 14.08
ZS.MC.BGE.0424SPVCOS 14.08
这段代码将处理数据中的各种错误。
例如,如果浮点值不在将要覆盖的最末端,如果
(…)
数据不固定在第二个位置,而是第一个位置,那么也将覆盖它。如果每行都有类似(您想要的代码)(您不想要的东西)
的内容,您可以尝试使用正则表达式
正则表达式“(\([A-z0-9\.]*\)”
匹配以下任意组合(由[]*
表示):
- 字母(
)A-z
- 编号(
),以及0-9
- 句号(
)\.
\(\)
)
从您的示例中,始终会有两个匹配项,例如
ZS.MC.BLK.0424SPVCOS
和21.12
re.findall
将按照给定的顺序找到这两个匹配项。因为您想要的总是第一个,所以使用re.findall(regex,line)[0]
您可以像这样循环文件中的行:
with open('filename.txt') as f:
for line in f.readlines():
#do stuff
要从所需行获取信息,可以执行以下操作:
cleaned = []
items = line.split()
for item in items:
if item.startswith('(') and item.endswith(')'):
cleaned.append(item.strip('()'))
break
cleaned.append(items[-1])
cleaned = ' '.join(cleaned)
完整程序:
in_file = 'reach.txt'
out_file = 'outreach.txt'
def clean(string):
if not string:
return string
cleaned = []
items = string.split()
for item in items:
if item.startswith('(') and item.endswith(')'):
cleaned.append(item.strip('()'))
break
cleaned.append(items[-1])
return ' '.join(cleaned)
with open(in_file) as i, open(out_file, 'w') as o:
o.write('\n'.join([clean(line) for line in i]))
通过您的示例reach.txt
,我得到
ZS.MC.BGE.0424SPVCOS 14.08
ZS.MC.BLK.0424SPVCOS 14.08
ZS.MC.GRY.0424SPVCOS 14.08
ZS.MC.BLK.0525SPVCOS3 14.08
ZS.MC.GRY.0525SPVCOS2 14.08
ZS.MC.BGE.0424SPVCOS 14.08
用open(file,'r')作为fh:for行在fh:row[:row.find('(')]
或只做row.split()
并取下你想要的部分。例如x=row.split()
和x[1],x[3]
但是x=row.split()和x[1],x[3]即使文本文件的格式不完全相同也可以工作?它没有,所以我重新编写了代码以查找(…)
,然后获取行中的最后一项,因为这似乎是一致的。尝试了我的最新编辑,结果与您的“我想要此结果”匹配:或者只对f中的行执行,同样的事情。由于缺少:
,这也会导致语法错误(为您修复)太棒了!!非常感谢。我喜欢你写的。可读性很强,也很简单。蝎子神喜欢这段代码,但提示了一个索引外的错误,上面写着第16行和第16行11@weemo那么你的文本文件中也有空行了吗?它现在可以处理空行了。现在还不能得到re。对我来说太超前了。读一下吧,我只是没有得到答案wildcards@weemo
只表示任意字符。因此'a..
将匹配以'a'
开头的任意三个字符串。感谢所有这些..将每个字符串都读取并通读…非常感谢反馈值错误:需要超过1个值才能读取unpack@weemo:显示输入。我怀疑文件末尾有空行。如果是,编辑应该可以帮助我发布整个文本文件?是4000行。不严格遵循格式unfortunately@weemo:我们需要一个最小的工作示例。因此,要么在OP中发布一组所有可能的行,要么描述所有可能的行,以便提供更可靠的解决方案
blacklist = set('1234567890.')
with open('reach.txt') as infile, open('outreach.txt', 'w') as outfile:
for line in infile:
line = line.strip()
if not line:
continue
_left, line = line.split("(", 1)
parts = [p.rstrip(")").lstrip("(") for p in line.split()]
parts = [p for i,p in enumerate(parts) if not all(char in blacklist for char in p) or i==len(parts)-1]
outfile.write("%s\n" %(' '.join(parts)))
ZS.MC.BGE.0424SPVCOS 14.08
ZS.MC.BLK.0424SPVCOS 14.08
ZS.MC.GRY.0424SPVCOS 14.08
ZS.MC.BLK.0525SPVCOS3 14.08
ZS.MC.GRY.0525SPVCOS2 14.08
ZS.MC.BGE.0424SPVCOS 14.08