Python 将HDF5(.h5)转换为spark数据帧

Python 将HDF5(.h5)转换为spark数据帧,python,pyspark,spark-dataframe,hdf5,Python,Pyspark,Spark Dataframe,Hdf5,我刚刚开始学习spark(更准确地说是pyspark) 如何将HDF5文件转换为spark数据帧 能帮上忙吗?dask数据帧与spark数据帧有什么不同吗 读取熊猫中的数据帧。然后可以将pandas数据帧转换为spark数据帧。我就是这样做的。此代码将帮助您: import pandas as pd store = pd.HDFStore('/mypath') wav = store.select('mykey') spark_df = sqlContext.createDataFrame(w

我刚刚开始学习spark(更准确地说是pyspark)

如何将HDF5文件转换为spark数据帧


能帮上忙吗?dask数据帧与spark数据帧有什么不同吗

读取熊猫中的数据帧。然后可以将pandas数据帧转换为spark数据帧。我就是这样做的。此代码将帮助您:

import pandas as pd

store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)

希望有帮助

不久前我发现了这篇文章:。我从来没有试过,但可能会有帮助。据我所知,dask在概念上与Spark相似,但它们是两个不同的东西(因此dask不会帮助您)。我建议使用Spark,因为它的传播范围更广。您也可以尝试使用odo库转换数据(同样,从未尝试过)。如果您找到无痛的解决方案,请告诉我们!