Python 读取具有不同数据类型的二进制文件_Python_Numpy_Binary Data

Python 读取具有不同数据类型的二进制文件

python numpy

Python 读取具有不同数据类型的二进制文件,python,numpy,binary-data,Python,Numpy,Binary Data,试图将Fortran生成的二进制文件读入Python，该文件包含一些整数、一些实数和逻辑。目前，我正确地阅读了前几个数字： x = np.fromfile(filein, dtype=np.int32, count=-1) firstint= x[1] ... （np是numpy）。但下一项是合乎逻辑的。后来又是整数和reals之后。如何执行此操作？通常，当您读取这样的值时，它们是以规则模式（例如，类似C的结构数组）进行的另一种常见情况是各种值的短头，后跟一组同质类型的数据让我们先处理第

试图将Fortran生成的二进制文件读入Python，该文件包含一些整数、一些实数和逻辑。目前，我正确地阅读了前几个数字：

x = np.fromfile(filein, dtype=np.int32, count=-1)
firstint= x[1]
...

（np是numpy）。

但下一项是合乎逻辑的。后来又是整数和reals之后。如何执行此操作？

通常，当您读取这样的值时，它们是以规则模式（例如，类似C的结构数组）进行的

另一种常见情况是各种值的短头，后跟一组同质类型的数据

让我们先处理第一个案例

读取数据类型的规则模式例如，您可能有如下内容：

float, float, int, int, bool, float, float, int, int, bool, ...

如果是这种情况，您可以定义一个数据类型来匹配类型的模式。在上述情况下，它可能看起来像：

dtype=[('a', float), ('b', float), ('c', int), ('d', int), ('e', bool)]

（注意：有许多不同的方法来定义数据类型。例如，您也可以将其写成

np.dtype（'f8，f8，i8，i8，'）

。有关更多信息，请参阅文档。）

在中读取数组时，它将是一个带有命名字段的结构化数组。如果愿意，您可以稍后将其拆分为单独的数组。（例如，

series1=数据['a']

具有上述定义的数据类型）

这样做的主要优点是从磁盘读取数据的速度非常快。Numpy只需将所有内容读入内存，然后根据指定的模式解释内存缓冲区

缺点是结构化数组的行为与常规数组稍有不同。如果你不习惯它们，一开始它们可能会让人困惑。要记住的关键部分是数组中的每个项都是您指定的模式之一。例如，对于我上面显示的，

数据[0]

可能类似于

（4.3，-1.2298200456，False）

在标题中阅读另一种常见情况是，您有一个已知格式的标题，然后是一长串常规数据。您仍然可以使用

np.fromfile

进行此操作，但需要单独解析标头

首先，读入标题。您可以通过几种不同的方式来实现这一点（例如，除了查看

np.fromfile

模块外，还可以查看

struct

模块，尽管这两种方法都可能适用于您的目的）

之后，当您将文件对象传递到

fromfile

时，文件的内部位置（即由

f.seek

控制的位置）将位于标题的末尾和数据的开头。如果文件的其余部分都是同类型数组，只需调用

np.fromfile（f，dtype）

即可

作为一个简单的示例，您可能有如下内容：

import numpy as np

# Let's say we have a file with a 512 byte header, the 
# first 16 bytes of which are the width and height 
# stored as big-endian 64-bit integers.  The rest of the
# "main" data array is stored as little-endian 32-bit floats

with open('data.dat', 'r') as f:
    width, height = np.fromfile(f, dtype='>i8', count=2)
    # Seek to the end of the header and ignore the rest of it
    f.seek(512)
    data = np.fromfile(f, dtype=np.float32)

# Presumably we'd want to reshape the data into a 2D array:
data = data.reshape((height, width))

通常，当您读入这样的值时，它们是以规则模式（例如，类似C的结构数组）进行的