Python 读取具有不同数据类型的二进制文件

Python 读取具有不同数据类型的二进制文件,python,numpy,binary-data,Python,Numpy,Binary Data,试图将Fortran生成的二进制文件读入Python,该文件包含一些整数、一些实数和逻辑。目前,我正确地阅读了前几个数字: x = np.fromfile(filein, dtype=np.int32, count=-1) firstint= x[1] ... (np是numpy)。 但下一项是合乎逻辑的。后来又是整数和reals之后。如何执行此操作?通常,当您读取这样的值时,它们是以规则模式(例如,类似C的结构数组)进行的 另一种常见情况是各种值的短头,后跟一组同质类型的数据 让我们先处理第

试图将Fortran生成的二进制文件读入Python,该文件包含一些整数、一些实数和逻辑。目前,我正确地阅读了前几个数字:

x = np.fromfile(filein, dtype=np.int32, count=-1)
firstint= x[1]
...
(np是numpy)。
但下一项是合乎逻辑的。后来又是整数和reals之后。如何执行此操作?

通常,当您读取这样的值时,它们是以规则模式(例如,类似C的结构数组)进行的

另一种常见情况是各种值的短头,后跟一组同质类型的数据

让我们先处理第一个案例

读取数据类型的规则模式 例如,您可能有如下内容:

float, float, int, int, bool, float, float, int, int, bool, ...
如果是这种情况,您可以定义一个数据类型来匹配类型的模式。在上述情况下,它可能看起来像:

dtype=[('a', float), ('b', float), ('c', int), ('d', int), ('e', bool)]
(注意:有许多不同的方法来定义数据类型。例如,您也可以将其写成
np.dtype('f8,f8,i8,i8,')
。有关更多信息,请参阅文档。)

在中读取数组时,它将是一个带有命名字段的结构化数组。如果愿意,您可以稍后将其拆分为单独的数组。(例如,
series1=数据['a']
具有上述定义的数据类型)

这样做的主要优点是从磁盘读取数据的速度非常快。Numpy只需将所有内容读入内存,然后根据指定的模式解释内存缓冲区

缺点是结构化数组的行为与常规数组稍有不同。如果你不习惯它们,一开始它们可能会让人困惑。要记住的关键部分是数组中的每个项都是您指定的模式之一。例如,对于我上面显示的,
数据[0]
可能类似于
(4.3,-1.2298200456,False)

在标题中阅读 另一种常见情况是,您有一个已知格式的标题,然后是一长串常规数据。您仍然可以使用
np.fromfile
进行此操作,但需要单独解析标头

首先,读入标题。您可以通过几种不同的方式来实现这一点(例如,除了查看
np.fromfile
模块外,还可以查看
struct
模块,尽管这两种方法都可能适用于您的目的)

之后,当您将文件对象传递到
fromfile
时,文件的内部位置(即由
f.seek
控制的位置)将位于标题的末尾和数据的开头。如果文件的其余部分都是同类型数组,只需调用
np.fromfile(f,dtype)
即可

作为一个简单的示例,您可能有如下内容:

import numpy as np

# Let's say we have a file with a 512 byte header, the 
# first 16 bytes of which are the width and height 
# stored as big-endian 64-bit integers.  The rest of the
# "main" data array is stored as little-endian 32-bit floats

with open('data.dat', 'r') as f:
    width, height = np.fromfile(f, dtype='>i8', count=2)
    # Seek to the end of the header and ignore the rest of it
    f.seek(512)
    data = np.fromfile(f, dtype=np.float32)

# Presumably we'd want to reshape the data into a 2D array:
data = data.reshape((height, width))

通常,当您读入这样的值时,它们是以规则模式(例如,类似C的结构数组)进行的

另一种常见情况是各种值的短头,后跟一组同质类型的数据

让我们先处理第一个案例

读取数据类型的规则模式 例如,您可能有如下内容:

float, float, int, int, bool, float, float, int, int, bool, ...
如果是这种情况,您可以定义一个数据类型来匹配类型的模式。在上述情况下,它可能看起来像:

dtype=[('a', float), ('b', float), ('c', int), ('d', int), ('e', bool)]
(注意:有许多不同的方法来定义数据类型。例如,您也可以将其写成
np.dtype('f8,f8,i8,i8,')
。有关更多信息,请参阅文档。)

在中读取数组时,它将是一个带有命名字段的结构化数组。如果愿意,您可以稍后将其拆分为单独的数组。(例如,
series1=数据['a']
具有上述定义的数据类型)

这样做的主要优点是从磁盘读取数据的速度非常快。Numpy只需将所有内容读入内存,然后根据指定的模式解释内存缓冲区

缺点是结构化数组的行为与常规数组稍有不同。如果你不习惯它们,一开始它们可能会让人困惑。要记住的关键部分是数组中的每个项都是您指定的模式之一。例如,对于我上面显示的,
数据[0]
可能类似于
(4.3,-1.2298200456,False)

在标题中阅读 另一种常见情况是,您有一个已知格式的标题,然后是一长串常规数据。您仍然可以使用
np.fromfile
进行此操作,但需要单独解析标头

首先,读入标题。您可以通过几种不同的方式来实现这一点(例如,除了查看
np.fromfile
模块外,还可以查看
struct
模块,尽管这两种方法都可能适用于您的目的)

之后,当您将文件对象传递到
fromfile
时,文件的内部位置(即由
f.seek
控制的位置)将位于标题的末尾和数据的开头。如果文件的其余部分都是同类型数组,只需调用
np.fromfile(f,dtype)
即可

作为一个简单的示例,您可能有如下内容:

import numpy as np

# Let's say we have a file with a 512 byte header, the 
# first 16 bytes of which are the width and height 
# stored as big-endian 64-bit integers.  The rest of the
# "main" data array is stored as little-endian 32-bit floats

with open('data.dat', 'r') as f:
    width, height = np.fromfile(f, dtype='>i8', count=2)
    # Seek to the end of the header and ignore the rest of it
    f.seek(512)
    data = np.fromfile(f, dtype=np.float32)

# Presumably we'd want to reshape the data into a 2D array:
data = data.reshape((height, width))

如果你能从Fortran文件中发布几行,可能会更清楚,为什么你要使用numpy?文件的打印方式非常复杂、冗长和乏味,所以我宁愿避免进入其中。使用numpy是因为我熟悉fromfile,但也可以提出其他建议,但是您从读取二进制文件中获得了什么呢?你想做什么?它包含一些双精度实数矩阵,前几项是整数格式和逻辑的大小等信息。如果不知道格式,就无法读取二进制文件。二进制的要点是“10001011”可以是真/假值序列、字符、无符号整数等;但是没有办法知道,因为所有文件包含的都是位。如果你能发布一些,可能会更清楚