Python 使用PySpark中的Limit获取数据帧样本？_Python_Apache Spark_Pyspark

Python 使用PySpark中的Limit获取数据帧样本？

python apache-spark pyspark

Python 使用PySpark中的Limit获取数据帧样本？,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我有一个已定义的模式，并希望使用limit函数引入前X行，但我一定是用错了我尝试将.limit（）放在.read之后，并收到一个DataFrameReader对象没有属性限制我曾尝试定义DataFrameReader对象，然后使用show（）之前的限制，但这需要很长时间，似乎它仍在将整个DF加载到内存中如何使用limit（）只获取X行？错误只是limit（）的位置应该是： schema_comment= StructType([ StructField("id", StringT

我有一个已定义的模式，并希望使用limit函数引入前X行，但我一定是用错了

我尝试将.limit（）放在.read之后，并收到一个DataFrameReader对象没有属性限制

我曾尝试定义DataFrameReader对象，然后使用show（）之前的限制，但这需要很长时间，似乎它仍在将整个DF加载到内存中

如何使用limit（）只获取X行？

错误只是limit（）的位置

应该是：

schema_comment= StructType([
    StructField("id", StringType(), True),
    StructField("date", DateType(), True),
    StructField("comment", StringType(), True),

])


commentdf = (
    spark.read.limit(50)
    .format("com.databricks.spark.csv")
    .option("header", "false")
    .option("inferSchema", "false")
    .schema(schema_comment)
    .load("hdfs:///data/ghcnd/comment.csv")
)

commentdf = (
    spark.read
    .format("com.databricks.spark.csv")
    .option("header", "false")
    .option("inferSchema", "false")
    .schema(schema_comment)
    .load("hdfs:///data/ghcnd/comment.csv")
    .limit(50)
)