Apache spark Pyspark中的并行处理

Apache spark Pyspark中的并行处理,apache-spark,pyspark,Apache Spark,Pyspark,我有一个包含500万项的大型数据集,包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧,最后在该数据帧上应用所有必需的操作 我是spark的新手,有一个疑问,每当我在数据帧上执行操作时,无论是内置函数(例如,使用sqlContext.read.JSON(filePath)加载JSON)还是使用udf,它是自动多线程的,还是需要显式地指定某个东西使其成为多线程的?如果是多线程的,我如何查看和更改当前使用的线程数?没有涉及多线程(也没有多

我有一个包含500万项的大型数据集,包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧,最后在该数据帧上应用所有必需的操作


我是spark的新手,有一个疑问,每当我在数据帧上执行操作时,无论是内置函数(例如,使用sqlContext.read.JSON(filePath)加载JSON)还是使用udf,它是自动多线程的,还是需要显式地指定某个东西使其成为多线程的?如果是多线程的,我如何查看和更改当前使用的线程数?

没有涉及多线程(也没有多线程功能),但通过使用单独的工作进程处理分区,执行是并行的

要控制并行性,请执行以下操作:

  • 调整辅助核心的数量
  • 调整
    数据帧
    分区的数量(或通过
    重新分区

是的,实际上我指的是并行处理而不是多线程。因此,每当我使用上述命令加载数据集时,spark是否会自动为我分割数据帧并在其上并行执行?