PySpark数据帧只有一个分区

PySpark数据帧只有一个分区,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,我从一个csv文件中加载了一些数据,该文件大约有60k行,当我检查它创建的分区数时,它显示为只有一个分区 其中,当我创建一个只有5行的示例数据框时,它已经创建了8个分区 这引发了一个疑问,即读取csv文件是否只会将所有数据加载到驱动程序?我们是否需要调用parallelise(或其他函数)将数据移动到工作节点 即使在对数据帧调用操作后,也不会创建超过1个分区 以下是截图:

我从一个csv文件中加载了一些数据,该文件大约有60k行,当我检查它创建的分区数时,它显示为只有一个分区

其中,当我创建一个只有5行的示例数据框时,它已经创建了8个分区

这引发了一个疑问,即读取csv文件是否只会将所有数据加载到驱动程序?我们是否需要调用parallelise(或其他函数)将数据移动到工作节点

即使在对数据帧调用操作后,也不会创建超过1个分区

以下是截图: