在python中将数据从文本文件读写到numpy列_Python_Arrays_Numpy

在python中将数据从文本文件读写到numpy列

python arrays numpy

在python中将数据从文本文件读写到numpy列,python,arrays,numpy,Python,Arrays,Numpy,我一直在努力为下面的文本文件格式做一些工作。我的总体目标是在整个文本文件中提取其中一个变量名的值。例如，我想要B行和D行的所有值。然后将它们放入一个普通的numpy数组中并运行计算以下是数据文件的外观： [SECTION1a] [a] 1424457484310 [b] 5313402937 [c] 873348378938 [d] 882992596992 [e] 14957596088 [SECTION1b] 243 62 184 145 250 180 106 208 248 87 1

我一直在努力为下面的文本文件格式做一些工作。我的总体目标是在整个文本文件中提取其中一个变量名的值。例如，我想要B行和D行的所有值。然后将它们放入一个普通的numpy数组中并运行计算

以下是数据文件的外观：

[SECTION1a]
[a] 1424457484310
[b] 5313402937
[c] 873348378938
[d] 882992596992
[e] 14957596088
[SECTION1b]
243 62 184 145 250 180 106 208 248 87 186 137 127 204 18 142 37 67 36 72 48     204 255 30 243 78 44 121 112 139 76 71 131 50 118 10 42 8 67 4 98 110 37 5 208   104 56 55 225 56 0 102 0 21 0 156 0 174 255 171 0 42 0 233 0 50 0 254 0 245 255   110 
[END SECTION1]
[SECTION2a]
[a] 1424457484310
[b] 5313402937
[c] 873348378938
[d] 882992596992
[e] 14957596088
[SECTION2b]
243 62 184 145 250 180 106 208 248 87 186 137 127 204 18 142 37 67 36 72 48   204 255 30 243 78 44 121 112 139 76 71 131 50 118 10 42 8 67 4 98 110 37 5 208 104 56 55 225 56 0 102 0 21 0 156 0 174 255 171 0 42 0 233 0 50 0 254 0 245 255 110 
[END SECTION2]

这种模式持续N段

目前，我读取该文件并将其分为两列：

filename_load = fileopenbox(msg=None, title='Load Data File',
                        default="Z:\*",
                        filetypes=None)

col1_data = np.genfromtxt(filename_load, skip_header=1, dtype=None, 
usecols=(0,), usemask=True, invalid_raise=False)

col2_data = np.genfromtxt(filename_load, skip_header=1, dtype=None, 
usecols=(1,), usemask=True, invalid_raise=False)

然后我将使用where，找到我想要的值的索引，然后创建这些值的新数组：

arr_index = np.where(col1_data == '[b]')
new_array = col2_data[arr_index]

问题是，由于奇怪的文件格式，我最终得到了两个不同大小的数组，因此数组中的数据显然与正确的变量名不匹配

我尝试了一些其他的替代方法，但由于奇怪的文本文件格式以及如何将其读入python而陷入困境

我不确定我是否应该继续走这条路，如果是的话，如何解决这个问题，或者，尝试一种完全不同的方法

提前谢谢

一种可能的解决方案，将您的数据分类到

OrdedDict（）的层次结构中。

字典：

from collections import OrderedDict
import re


ss = """[SECTION1a]
[a] 1424457484310
[b] 5313402937
[c] 873348378938
[d] 882992596992
[e] 14957596088
[SECTION1b]
243 62 184 145 250 180 106 208 248 87 186 137 127 204 18 142 37 67 36 72 48     204 255 30 243 78 44 121 112 139 76 71 131 50 118 10 42 8 67 4 98 110 37 5 208   104 56 55 225 56 0 102 0 21 0 156 0 174 255 171 0 42 0 233 0 50 0 254 0 245 255   110
[END SECTION1]
[SECTION2a]
[a] 1424457484310
[b] 5313402937
[c] 873348378938
[d] 882992596992
[e] 14957596088
[SECTION2b]
243 62 184 145 250 180 106 208 248 87 186 137 127 204 18 142 37 67 36 72 48   204 255 30 243 78 44 121 112 139 76 71 131 50 118 10 42 8 67 4 98 110 37 5 208 104 56 55 225 56 0 102 0 21 0 156 0 174 255 171 0 42 0 233 0 50 0 254 0 245 255 110
[END SECTION2]"""

# regular expressions for matching SECTIONs
p1 = re.compile("^\[SECTION[0-9]+a\]")
p2 = re.compile("^\[SECTION[0-9]+b\]")
p3 = re.compile("^\[END SECTION[0-9]+\]")

def parse(ss):
    """ Make hierachial dict from string """
    ll, l_cnt = ss.splitlines(), 0
    d = OrderedDict()
    while l_cnt < len(ll): # iterate through lines
        l = ll[l_cnt].strip()
        if p1.match(l):  # new sub dict for [SECTION*a]
            dd, nn = OrderedDict(), l[1:-1]
            l_cnt += 1
            while (p2.match(ll[l_cnt].strip()) is None and
                   p3.match(ll[l_cnt].strip()) is None):
                ww = ll[l_cnt].split()
                dd[ww[0][1:-1]] = int(ww[1])
                l_cnt += 1
            d[nn] = dd
        elif p2.match(l):  # array of ints for [SECTION*b]
            d[l[1:-1]] = [int(w) for w in ll[l_cnt+1].split()]
            l_cnt += 2
        elif p3.match(l):
            l_cnt += 1
    return d

dd = parse(ss)

或者你可以浏览整本字典：

def print_recdicts(d, tbw=0):
    """print the hierachial dict """
    for k,v in d.items():
        if type(v) is OrderedDict:
            print(" "*tbw + "* {}:".format(k))
            print_recdicts(v, tbw+2)
        else:
            print(" "*tbw + "* {}: {}".format(k,v))

print_recdicts(dd)
# Gives:
# * SECTION1a:
#   * a: 1424457484310
#   * b: 5313402937
# ...

下面的步骤应该可以做到这一点。它使用一个正在运行的存储（

tally

）来处理缺少的值，然后在点击结束标记时写出状态

import re
import numpy as np

filename = "yourfilenamehere.txt"

# [e] 14957596088
match_line_re = re.compile(r"^\[([a-z])\]\W(\d*)")

result = {
    'b':[],
    'd':[],
    }

tally_empty = dict( zip( result.keys(), [np.nan] * len(result) ) )

tally = tally_empty
with open(filename, 'r') as f:
    for line in f:
        if line.startswith('[END SECTION'):
            # Write accumulated data to the lists
            for k, v in tally.items():
                result[k].append(v)

            tally = tally_empty 

        else:
            # Map the items using regex
            m = match_line_re.search(line)
            if m:
                k, v = m.group(1), m.group(2)
                print(k,v)
                if k in tally:
                    tally[k] = v

b = np.array(result['b'])
d = np.array(result['d'])

注意，结果

dict

定义中的任何键都将在输出中。

对不起，数据文件看起来很糟糕，每个变量都应该是新行的开始。在预览中没有这样看，将尝试修复。您是说[b]和[d]的数量不匹配吗？他们有时会失踪吗？另外，您是否只需要SECTIONXa块中的数据（忽略SECTIONXb中的行数据）？我是这样做的。如果我没记错的话，我最终得到一个大约600的数组，另一个超过800。所以b区的街区一定把我的计划搞砸了，现在看来很明显。我不需要b区街区。在数据输出部分a块上。所以，一种方法可以首先去掉这些部分，但如何去掉呢？应该只说数据，而不是数据。

import re
import numpy as np

filename = "yourfilenamehere.txt"

# [e] 14957596088
match_line_re = re.compile(r"^\[([a-z])\]\W(\d*)")

result = {
    'b':[],
    'd':[],
    }

tally_empty = dict( zip( result.keys(), [np.nan] * len(result) ) )

tally = tally_empty
with open(filename, 'r') as f:
    for line in f:
        if line.startswith('[END SECTION'):
            # Write accumulated data to the lists
            for k, v in tally.items():
                result[k].append(v)

            tally = tally_empty 

        else:
            # Map the items using regex
            m = match_line_re.search(line)
            if m:
                k, v = m.group(1), m.group(2)
                print(k,v)
                if k in tally:
                    tally[k] = v

b = np.array(result['b'])
d = np.array(result['d'])