Python 3.x 如何在分区文件上创建数据帧
我有1000多个拼花地板文件在一个文件夹中,这是一个分区文件夹。 现在我们需要使用这些文件对其执行一些转换。 我需要创建数据帧使用这些拼花文件。有什么建议吗 请尝试以下代码:Python 3.x 如何在分区文件上创建数据帧,python-3.x,apache-spark,pyspark,apache-spark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,我有1000多个拼花地板文件在一个文件夹中,这是一个分区文件夹。 现在我们需要使用这些文件对其执行一些转换。 我需要创建数据帧使用这些拼花文件。有什么建议吗 请尝试以下代码: DF = sqlContext.read.parquet(r"<folderpath>/*") DF=sqlContext.read.parquet(r”/*”) *表示指定文件夹下存在的所有文件 DF将是一个数据框,其中包含中所有拼花地板文件的数据。然后可以在DF上执行转换
DF = sqlContext.read.parquet(r"<folderpath>/*")
DF=sqlContext.read.parquet(r”/*”)
*
表示指定文件夹下存在的所有文件
DF
将是一个数据框,其中包含
中所有拼花地板文件的数据。然后可以在DF
上执行转换