Apache spark Pyspark中的并行处理
我有一个包含500万项的大型数据集,包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧,最后在该数据帧上应用所有必需的操作Apache spark Pyspark中的并行处理,apache-spark,pyspark,Apache Spark,Pyspark,我有一个包含500万项的大型数据集,包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧,最后在该数据帧上应用所有必需的操作 我是spark的新手,有一个疑问,每当我在数据帧上执行操作时,无论是内置函数(例如,使用sqlContext.read.JSON(filePath)加载JSON)还是使用udf,它是自动多线程的,还是需要显式地指定某个东西使其成为多线程的?如果是多线程的,我如何查看和更改当前使用的线程数?没有涉及多线程(也没有多
我是spark的新手,有一个疑问,每当我在数据帧上执行操作时,无论是内置函数(例如,使用sqlContext.read.JSON(filePath)加载JSON)还是使用udf,它是自动多线程的,还是需要显式地指定某个东西使其成为多线程的?如果是多线程的,我如何查看和更改当前使用的线程数?没有涉及多线程(也没有多线程功能),但通过使用单独的工作进程处理分区,执行是并行的 要控制并行性,请执行以下操作:
- 调整辅助核心的数量
- 调整
分区的数量(或通过数据帧
)重新分区