Python 如何使用h5py编写以Null结尾的固定长度字符串的数据集 我有一个C++例子,我想用H5PY来复制,但是它并不像预期的那样工作。我得到了带有h5py的空填充字符串,其中我期望以空结尾的字符串 这是我的C++驱动程序…< /P>

Python 如何使用h5py编写以Null结尾的固定长度字符串的数据集 我有一个C++例子,我想用H5PY来复制,但是它并不像预期的那样工作。我得到了带有h5py的空填充字符串,其中我期望以空结尾的字符串 这是我的C++驱动程序…< /P>,python,h5py,Python,H5py,main.cpp #include <hdf5.h> int main(void) { auto file = H5Fcreate("test-c.h5", H5F_ACC_TRUNC, H5P_DEFAULT, H5P_DEFAULT); char strings[5][64] = { "please work 0", "please work 1", "please work 2",

main.cpp

#include <hdf5.h>

int main(void) {
    auto file = H5Fcreate("test-c.h5", H5F_ACC_TRUNC,
            H5P_DEFAULT, H5P_DEFAULT);
    char strings[5][64] = {
        "please work 0",
        "please work 1",
        "please work 2",
        "please work 3",
        "please work 4"};
    auto H5T_C_S1_64 = H5Tcopy (H5T_C_S1);
    H5Tset_size(H5T_C_S1_64, 64);
    hsize_t dims[1] = {5};
    auto dataspace = H5Screate_simple(1, dims, NULL);
    auto dataset = H5Dcreate(file, "test dataset", H5T_C_S1_64, dataspace,
            H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT);
    H5Dwrite (dataset, H5T_C_S1_64, H5S_ALL, H5S_ALL, H5P_DEFAULT, strings);
    H5Dclose(dataset);
    H5Sclose(dataspace);
    H5Tclose(H5T_C_S1_64);
    H5Fclose(file);
    return 0;
}
这是我的python脚本,我正试图用它写出相同的hdf5文件

main.py

import h5py

hdf5 = h5py.File('test-p.h5', 'w')
H5T_C_S1_64 = h5py.h5t.C_S1.copy()
H5T_C_S1_64.set_size(64)
print "Null Terminated String: %s" % (
    H5T_C_S1_64.get_strpad() == h5py.h5t.STR_NULLTERM)
dataset = hdf5.create_dataset('test dataset', (5,),
                              data=['please work %s' % n for n in xrange(5)],
                              dtype=H5T_C_S1_64)
hdf5.close()
我使用的是PythonV2.7.11,我已经在H5PyV2.5.0和v2.6.0中进行了尝试,得到了以下相同的结果

>> python --version
Python 2.7.11

>> python -c "import h5py; print h5py.version.version"
2.5.0

>> tree
.
├── main.cpp
├── main.py
└── SConstruct

0 directories, 3 files

>> scons
scons: Reading SConscript files ...
scons: done reading SConscript files.
scons: Building targets ...
g++ -o main.o -c -std=c++11 main.cpp
g++ -o writeh5 main.o -lhdf5
scons: done building targets.

>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
└── writeh5

0 directories, 5 files

>> ./writeh5 

>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
└── writeh5

0 directories, 6 files

>> python main.py
Null Terminated String: True

>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
├── test-p.h5
└── writeh5

0 directories, 7 files

>> h5dump test-c.h5 
HDF5 "test-c.h5" {
GROUP "/" {
   DATASET "test dataset" {
      DATATYPE  H5T_STRING {
         STRSIZE 64;
         STRPAD H5T_STR_NULLTERM;
         CSET H5T_CSET_ASCII;
         CTYPE H5T_C_S1;
      }
      DATASPACE  SIMPLE { ( 5 ) / ( 5 ) }
      DATA {
      (0): "please work 0", "please work 1", "please work 2",
      (3): "please work 3", "please work 4"
      }
   }
}
}

>> h5dump test-p.h5
HDF5 "test-p.h5" {
GROUP "/" {
   DATASET "test dataset" {
      DATATYPE  H5T_STRING {
         STRSIZE 64;
         STRPAD H5T_STR_NULLPAD;
         CSET H5T_CSET_ASCII;
         CTYPE H5T_C_S1;
      }
      DATASPACE  SIMPLE { ( 5 ) / ( 5 ) }
      DATA {
      (0): "please work 0\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000",
      (1): "please work 1\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000",
      (2): "please work 2\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000",
      (3): "please work 3\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000",
      (4): "please work 4\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000"
      }
   }
}
}
从上面的输出可以看出,在使用h5py时,我仍然使用空填充的固定长度字符串,即使我指定我需要空终止的固定长度字符串

那么,如何修改python脚本以在数据集中使用以null结尾的固定长度字符串呢?如果它是h5py中的一个bug,是否有任何解决方法


提前感谢您的帮助。

编辑:在下面找到了适用于“香草”h5py的解决方案

在h5py源中,存在以下情况:

我不完全确定它的作用。然而,在注释掉写有
H5Tset_strpad(tid,H5T_STR_NULLPAD)
的行并编译库之后,问题似乎得到了解决,而
python2 setup.py test
没有报告任何意外的失败测试。它是唯一一个引用
H5T\u C\u S1
而不是在可变长度字符串上下文中的函数。看起来有点像虫子

因此,一种(黑客)方法是在脚本目录中执行以下命令

$ https://github.com/h5py/h5py h5py-source
$ mkdir fake-root
$ sed -i '/H5Tset_strpad(tid, H5T_STR_NULLPAD)/d' h5py-source/h5py/h5t.pyx
$ (cd h5py-source; python2 setup.py install --root fake-root)
$ mv fake-root/usr/lib/python2.7/site-packages/h5py .
然后,在导入
h5py
时,本地目录中的
h5py
将覆盖系统范围内安装的版本。您最好在用户站点包、虚拟环境或打开问题时使用安装

请注意,应用此修复程序可能会以意外的方式破坏某些东西(我以前从未使用过hdf5,也不知道这可能会产生什么影响)。真正的解决方案可能涉及从
dt
加载strpad

编辑 我做了更多的研究:

只列出了3种受支持的字符串,零填充固定长度字符串和两种不同类型的可变长度字符串。没有提到以零结尾的字符串。因此,h5py公共api似乎不支持以null结尾的字符串(即使代码中提到了null c字符串)

接下来,dtype参数应该是有效的numpy dtype。没有明确提到支持H5T。然而,H5T类型仍然被解释为字符串。更改填充不会更改在
TypeStringID
中接收的
dtype
的任何属性

数据集中发生了从numpy数据类型到h5t类型的转换。py:736:

if isinstance(dtype, Datatype):                                                                              
    # Named types are used as-is                                            
    tid = dtype.id                                                          
    dtype = tid.dtype  # Following code needs this                          
else:                                                                       
    # Validate dtype                                                        
    if dtype is None and data is None:                                      
        dtype = numpy.dtype("=f4")                                          
    elif dtype is None and data is not None:                                
        dtype = data.dtype                                                  
    else:                                                                   
        dtype = numpy.dtype(dtype)                                                                        
    tid = h5t.py_create(dtype, logical=1)
其中
numpy.dtype(H5T\u C\u S1)
给出了一个带有
kind='S'
的数据类型。 接下来,对
h5t.py\u create(dtype,logical=1)
的调用从上面将其分派到
\u c\u字符串(dt)
。因此,修复确实会破坏一些东西,因为所有固定长度的字符串都将以null结尾

然而,这也显示了一种更好的解决方案。通过从H5T tid构建数据类型,我们可以绕过
numpy.dtype
转换

此代码适用于vanilla h5py安装:

import h5py

hdf5 = h5py.File('test-p.h5', 'w')

tid = h5py.h5t.C_S1.copy()
tid.set_size(64)
H5T_C_S1_64 = h5py.Datatype(tid)

dataset = hdf5.create_dataset('test dataset', (5,),
                              data=['please work %s' % n for n in range(5)],
                              dtype=H5T_C_S1_64)
hdf5.close()

这还允许您使用任何想要使用的填充方案。但是,我找不到它的文档,所以api将来可能会改变。

它看起来确实像是一个bug出现在
H5Tset_strpad(tid,H5T_STR_NULLPAD)
行上,将字符串填充硬编码为空填充,但我猜该行应该是
H5Tset_strpad(tid,dt.strpad)
或类似的行。您的修复对我来说不是一个可行的解决方案,但看起来您确实找到了错误的原因。@KennethE.Bellock我找到了一个不改变h5py的解决方案。这可行吗?太棒了!它工作得很好!感谢@Lennart提供您的原始答案和编辑,这正是我想要的。
if isinstance(dtype, Datatype):                                                                              
    # Named types are used as-is                                            
    tid = dtype.id                                                          
    dtype = tid.dtype  # Following code needs this                          
else:                                                                       
    # Validate dtype                                                        
    if dtype is None and data is None:                                      
        dtype = numpy.dtype("=f4")                                          
    elif dtype is None and data is not None:                                
        dtype = data.dtype                                                  
    else:                                                                   
        dtype = numpy.dtype(dtype)                                                                        
    tid = h5t.py_create(dtype, logical=1)
import h5py

hdf5 = h5py.File('test-p.h5', 'w')

tid = h5py.h5t.C_S1.copy()
tid.set_size(64)
H5T_C_S1_64 = h5py.Datatype(tid)

dataset = hdf5.create_dataset('test dataset', (5,),
                              data=['please work %s' % n for n in range(5)],
                              dtype=H5T_C_S1_64)
hdf5.close()