Hadoop 如何将HDF5文件转换为拼花地板文件?

Hadoop 如何将HDF5文件转换为拼花地板文件?,hadoop,hdf5,impala,parquet,hdfstore,Hadoop,Hdf5,Impala,Parquet,Hdfstore,我已经通过pandas将大约800 GB的大数据帧存储到HDF5中,并使用pandas.HDFStore() 我想问一下黑斑羚。有没有一种简单的方法可以将这些数据解析成拼花地板?还是黑斑羚允许您直接使用HDF5?HDF5上的数据还有其他选项吗 我自己还没有尝试过,但这里有一个链接显示了如何使用Spark将HDFStore转换为拼花地板:。如果我运行hdf_to_Parquet.py,这些拼花地板文件会写入磁盘吗?然后我可以把这些导入黑斑羚? import pandas as pd store =

我已经通过pandas将大约800 GB的大数据帧存储到HDF5中,并使用
pandas.HDFStore()


我想问一下黑斑羚。有没有一种简单的方法可以将这些数据解析成拼花地板?还是黑斑羚允许您直接使用HDF5?HDF5上的数据还有其他选项吗

我自己还没有尝试过,但这里有一个链接显示了如何使用Spark将HDFStore转换为拼花地板:。

如果我运行
hdf_to_Parquet.py
,这些拼花地板文件会写入磁盘吗?然后我可以把这些导入黑斑羚?
import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df