使用python解析多列字符串
我试图从一个名为使用python解析多列字符串,python,regex,numpy,cheminformatics,Python,Regex,Numpy,Cheminformatics,我试图从一个名为NWChem的化学信息程序的文本输出中提取数据,我已经提取了我感兴趣的部分输出(振动模式),下面是我提取的字符串: s = ''' 1 2 3 4 5 6 P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00
NWChem
的化学信息程序的文本输出中提取数据,我已经提取了我感兴趣的部分输出(振动模式),下面是我提取的字符串:
s = ''' 1 2 3 4 5 6
P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00
1 -0.23581 0.00000 0.00000 0.00000 0.01800 -0.04639
2 0.00000 0.25004 0.00000 0.00000 0.00000 0.00000
3 -0.00000 0.00000 0.00000 0.00000 -0.21968 -0.08522
4 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
5 0.00000 0.00000 0.99611 0.00000 0.00000 0.00000
6 0.00192 0.00000 0.00000 0.00000 -0.42262 0.43789
7 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
8 0.00000 0.00000 0.00000 0.99611 0.00000 0.00000
9 -0.00193 0.00000 0.00000 0.00000 -0.01674 -0.60834
7 8 9
P.Frequency 1583.30 3661.06 3772.30
1 -0.00000 -0.00000 0.06664
2 0.00000 0.00000 0.00000
3 -0.06754 0.04934 0.00000
4 0.41551 0.56874 -0.52878
5 0.00000 0.00000 0.00000
6 0.53597 -0.39157 0.42577
7 -0.41551 -0.56874 -0.52878
8 0.00000 0.00000 0.00000
9 0.53597 -0.39157 -0.42577'''
首先,我使用正则表达式拆分行上的数据。
import re
p = re.compile('\n + +(?=[\d| ]+\n\n P.Frequency +)')
d = re.split(p, s)
print(d[0])
1 2 3 4 5 6
P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00
1 -0.23581 0.00000 0.00000 0.00000 0.01800 -0.04639
2 0.00000 0.25004 0.00000 0.00000 0.00000 0.00000
3 -0.00000 0.00000 0.00000 0.00000 -0.21968 -0.08522
4 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
5 0.00000 0.00000 0.99611 0.00000 0.00000 0.00000
6 0.00192 0.00000 0.00000 0.00000 -0.42262 0.43789
7 -0.23425 0.00000 0.00000 0.00000 -0.14541 0.37483
8 0.00000 0.00000 0.00000 0.99611 0.00000 0.00000
9 -0.00193 0.00000 0.00000 0.00000 -0.01674 -0.60834
然而,我不知道如何提取垂直呈现的振动模式。我想在一个数组中,或者一个numpy数组中,轻松地访问每个振动模式。像这样:
[[-0.00, -0.23581, 0.0000, ..., -0.00193],
[0.00, 0.00000, ..., 0.00000],
...
[3772.30, 0.06664, ..., 0.0000, --0.42577]]
通过2
np.genfromtxt
读取,我可以将数据文件加载到2个数组中,并将它们连接到一个9x9数组中:
In [134]: rows1 = np.genfromtxt('stack30874236.txt',names=None,skip_header=4,skip_footer=10)
In [135]: rows2 =np.genfromtxt('stack30874236.txt',names=None,skip_header=17)
In [137]: rows=np.concatenate([rows1[:,1:],rows2[:,1:]],axis=1)
In [138]: rows
Out[138]:
array([[-0.23581, 0. , 0. , 0. , 0.018 , -0.04639, -0. , -0. , 0.06664],
[ 0. , 0.25004, 0. , 0. , 0. , 0. , 0. , 0. , 0. ],
...
[-0.00193, 0. , 0. , 0. , -0.01674, -0.60834, 0.53597, -0.39157, -0.42577]])
In [139]: rows.T
Out[139]:
array([[-0.23581, 0. , -0. , -0.23425, 0. , 0.00192, -0.23425, 0. , -0.00193],
[ 0. , 0.25004, 0. , 0. , 0. , 0. ,
...
[ 0.06664, 0. , 0. , -0.52878, 0. , 0.42577, -0.52878, 0. , -0.42577]])
我必须选择跳过页眉/页脚值以适应数据文件。用代码推导它们需要更多的工作。正如所建议的那样,numpy函数非常方便地解析此类字符串,但是由于我正在使用python3,我需要将字符串转换为字节流以将其传递给此函数
下面是实现该技巧的代码:
import numpy as np
from io import BytesIO
i = 0
for row in d:
values = np.genfromtxt(BytesIO(row.encode(encoding='UTF-8')), skip_header=1).transpose()[1:]
if i == 0:
data = values
else:
data = np.concatenate((data, values))
i += 1
你可能投了反对票,因为你没有提供足够的背景资料:到目前为止你都做了些什么?哪里有输出-是文本文件,是R格式的吗?试试
genfromtxt
,玩skip header和skip trail来隔离行集。我使用的是py3中运行的Ipython。粘贴这样的文本时,我会在其前面加上一个b
:txt=b''1 2 3\n 4 5 6'
。我可能还需要通过拆分行
传递它,这样genfromtxt
就不会认为它是一个文件名。在过去,我也使用了io
,尽管我发现这是不必要的genfromtxt
对任何提供“行”(和“字节”)的iterable都很满意。感谢这些精确性。