使用python解析多列字符串_Python_Regex_Numpy_Cheminformatics

使用python解析多列字符串

python regex numpy

使用python解析多列字符串,python,regex,numpy,cheminformatics,Python,Regex,Numpy,Cheminformatics,我试图从一个名为NWChem的化学信息程序的文本输出中提取数据，我已经提取了我感兴趣的部分输出（振动模式），下面是我提取的字符串： s = ''' 1 2 3 4 5 6 P.Frequency -0.00 0.00 0.00 0.00 0.00 0.00

我试图从一个名为

NWChem

的化学信息程序的文本输出中提取数据，我已经提取了我感兴趣的部分输出（振动模式），下面是我提取的字符串：

s = '''                   1           2           3           4           5           6

 P.Frequency       -0.00        0.00        0.00        0.00        0.00        0.00

           1    -0.23581     0.00000     0.00000     0.00000     0.01800    -0.04639
           2     0.00000     0.25004     0.00000     0.00000     0.00000     0.00000
           3    -0.00000     0.00000     0.00000     0.00000    -0.21968    -0.08522
           4    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           5     0.00000     0.00000     0.99611     0.00000     0.00000     0.00000
           6     0.00192     0.00000     0.00000     0.00000    -0.42262     0.43789
           7    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           8     0.00000     0.00000     0.00000     0.99611     0.00000     0.00000
           9    -0.00193     0.00000     0.00000     0.00000    -0.01674    -0.60834

                    7           8           9

 P.Frequency     1583.30     3661.06     3772.30

           1    -0.00000    -0.00000     0.06664
           2     0.00000     0.00000     0.00000
           3    -0.06754     0.04934     0.00000
           4     0.41551     0.56874    -0.52878
           5     0.00000     0.00000     0.00000
           6     0.53597    -0.39157     0.42577
           7    -0.41551    -0.56874    -0.52878
           8     0.00000     0.00000     0.00000
           9     0.53597    -0.39157    -0.42577'''

首先，我使用正则表达式拆分行上的数据。

import re
p = re.compile('\n + +(?=[\d| ]+\n\n P.Frequency +)')
d = re.split(p, s)
print(d[0])

                   1           2           3           4           5           6

 P.Frequency       -0.00        0.00        0.00        0.00        0.00        0.00

           1    -0.23581     0.00000     0.00000     0.00000     0.01800    -0.04639
           2     0.00000     0.25004     0.00000     0.00000     0.00000     0.00000
           3    -0.00000     0.00000     0.00000     0.00000    -0.21968    -0.08522
           4    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           5     0.00000     0.00000     0.99611     0.00000     0.00000     0.00000
           6     0.00192     0.00000     0.00000     0.00000    -0.42262     0.43789
           7    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           8     0.00000     0.00000     0.00000     0.99611     0.00000     0.00000
           9    -0.00193     0.00000     0.00000     0.00000    -0.01674    -0.60834

然而，我不知道如何提取垂直呈现的振动模式。我想在一个数组中，或者一个numpy数组中，轻松地访问每个振动模式。像这样：

[[-0.00, -0.23581, 0.0000, ..., -0.00193],
 [0.00, 0.00000, ..., 0.00000],
  ...
 [3772.30, 0.06664, ..., 0.0000, --0.42577]]

通过2

np.genfromtxt

读取，我可以将数据文件加载到2个数组中，并将它们连接到一个9x9数组中：

In [134]: rows1 = np.genfromtxt('stack30874236.txt',names=None,skip_header=4,skip_footer=10)

In [135]: rows2 =np.genfromtxt('stack30874236.txt',names=None,skip_header=17)

In [137]: rows=np.concatenate([rows1[:,1:],rows2[:,1:]],axis=1)

In [138]: rows
Out[138]: 
array([[-0.23581,  0.     ,  0.     ,  0.     ,  0.018  , -0.04639, -0.     , -0.     ,  0.06664],
       [ 0.     ,  0.25004,  0.     ,  0.     ,  0.     ,  0.     , 0.     ,  0.     ,  0.     ],
       ...
       [-0.00193,  0.     ,  0.     ,  0.     , -0.01674, -0.60834, 0.53597, -0.39157, -0.42577]])

In [139]: rows.T
Out[139]: 
array([[-0.23581,  0.     , -0.     , -0.23425,  0.     ,  0.00192,  -0.23425,  0.     , -0.00193],
       [ 0.     ,  0.25004,  0.     ,  0.     ,  0.     ,  0.     ,
       ...
       [ 0.06664,  0.     ,  0.     , -0.52878,  0.     ,  0.42577, -0.52878,  0.     , -0.42577]])

我必须选择跳过页眉/页脚值以适应数据文件。用代码推导它们需要更多的工作。

正如所建议的那样，numpy函数非常方便地解析此类字符串，但是由于我正在使用python3，我需要将字符串转换为字节流以将其传递给此函数

下面是实现该技巧的代码：

import numpy as np
from io import BytesIO
i = 0
for row in d:
    values = np.genfromtxt(BytesIO(row.encode(encoding='UTF-8')), skip_header=1).transpose()[1:]
    if i == 0:
        data = values
    else:
        data = np.concatenate((data, values))
    i += 1

你可能投了反对票，因为你没有提供足够的背景资料：到目前为止你都做了些什么？哪里有输出-是文本文件，是R格式的吗？试试

genfromtxt

，玩skip header和skip trail来隔离行集。我使用的是py3中运行的Ipython。粘贴这样的文本时，我会在其前面加上一个

：

txt=b''1 2 3\n 4 5 6'

。我可能还需要通过

拆分行

传递它，这样

genfromtxt

就不会认为它是一个文件名。在过去，我也使用了

io

，尽管我发现这是不必要的

genfromtxt

对任何提供“行”（和“字节”）的iterable都很满意。感谢这些精确性。