Python 使用PySpark中的Limit获取数据帧样本?
我有一个已定义的模式,并希望使用limit函数引入前X行,但我一定是用错了 我尝试将.limit()放在.read之后,并收到一个DataFrameReader对象没有属性限制 我曾尝试定义DataFrameReader对象,然后使用show()之前的限制,但这需要很长时间,似乎它仍在将整个DF加载到内存中Python 使用PySpark中的Limit获取数据帧样本?,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我有一个已定义的模式,并希望使用limit函数引入前X行,但我一定是用错了 我尝试将.limit()放在.read之后,并收到一个DataFrameReader对象没有属性限制 我曾尝试定义DataFrameReader对象,然后使用show()之前的限制,但这需要很长时间,似乎它仍在将整个DF加载到内存中 如何使用limit()只获取X行?错误只是limit()的位置 应该是: schema_comment= StructType([ StructField("id", StringT
如何使用limit()只获取X行?错误只是limit()的位置 应该是:
schema_comment= StructType([
StructField("id", StringType(), True),
StructField("date", DateType(), True),
StructField("comment", StringType(), True),
])
commentdf = (
spark.read.limit(50)
.format("com.databricks.spark.csv")
.option("header", "false")
.option("inferSchema", "false")
.schema(schema_comment)
.load("hdfs:///data/ghcnd/comment.csv")
)
commentdf = (
spark.read
.format("com.databricks.spark.csv")
.option("header", "false")
.option("inferSchema", "false")
.schema(schema_comment)
.load("hdfs:///data/ghcnd/comment.csv")
.limit(50)
)