Dataframe 将Spark数据框保存为拼花文件-无错误,但未保存数据
我想在Python中将数据帧保存为拼花文件,但我只能保存模式,而不能保存数据本身 我已经将我的问题简化为一个非常简单的Python测试用例,下面是我从IPYNB复制的 对可能发生的事情有什么建议吗Dataframe 将Spark数据框保存为拼花文件-无错误,但未保存数据,dataframe,apache-spark-sql,parquet,Dataframe,Apache Spark Sql,Parquet,我想在Python中将数据帧保存为拼花文件,但我只能保存模式,而不能保存数据本身 我已经将我的问题简化为一个非常简单的Python测试用例,下面是我从IPYNB复制的 对可能发生的事情有什么建议吗 In [2]: import math import string import datetime import numpy as np import matplotlib.pyplot from pyspark.sql import * import pylab import random imp
In [2]:
import math
import string
import datetime
import numpy as np
import matplotlib.pyplot
from pyspark.sql import *
import pylab
import random
import time
In [3]:
sqlContext = SQLContext(sc)
#create a simple 1 column dataframe a single row of data
df = sqlContext.createDataFrame(sc.parallelize(xrange(1)).flatMap(lambda x[Row(col1="Test row")]))
df.show()
df.count()
Out[3]:
col1
Test row
1L
In [4]:
# Persist the dataframe as a parquet file
df.saveAsParquetFile("test.parquet")
In [5]:
ls
TrapezoidRule.ipynb metastore_db/
WeatherPrecipitation.ipynb derby.log test.parquet/
In [6]:
ls -l test.parquet
total 4
-rw-r--r-- 1 s26e-5a5fbda111ac17-5edfd8a0d95d users 0 Oct 4 14:13 _SUCCESS
-rw-r--r-- 1 s26e-5a5fbda111ac17-5edfd8a0d95d users 188 Oct 4 14:13 _common_metadata
In [7]:
# The directory listing shows that the test parquet was created, but there are no data files.
# load the parquet file into another df and show that no data was saved or loaded... only the schema
newDF = sqlContext.parquetFile("test.parquet")
newDF.show()
newDF.count()
Out[7]:
col1
0L
你解决问题了吗?您使用的是哪个spark版本?我在本地模式下运行Spark2.2时也遇到了同样的问题。你有没有发现什么地方出了问题?