Apache spark Pyspark中的并行处理_Apache Spark_Pyspark

Apache spark Pyspark中的并行处理

apache-spark pyspark

Apache spark Pyspark中的并行处理,apache-spark,pyspark,Apache Spark,Pyspark,我有一个包含500万项的大型数据集，包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧，最后在该数据帧上应用所有必需的操作我是spark的新手，有一个疑问，每当我在数据帧上执行操作时，无论是内置函数（例如，使用sqlContext.read.JSON（filePath）加载JSON）还是使用udf，它是自动多线程的，还是需要显式地指定某个东西使其成为多线程的？如果是多线程的，我如何查看和更改当前使用的线程数？没有涉及多线程（也没有多

我有一个包含500万项的大型数据集，包括它们的ID、成本等。我一直在Pyspark shell中使用sqlContext加载JSON并创建一个数据帧，最后在该数据帧上应用所有必需的操作

我是spark的新手，有一个疑问，每当我在数据帧上执行操作时，无论是内置函数（例如，使用sqlContext.read.JSON（filePath）加载JSON）还是使用udf，它是自动多线程的，还是需要显式地指定某个东西使其成为多线程的？如果是多线程的，我如何查看和更改当前使用的线程数？

没有涉及多线程（也没有多线程功能），但通过使用单独的工作进程处理分区，执行是并行的

要控制并行性，请执行以下操作：

调整辅助核心的数量
调整
```
数据帧
```
分区的数量（或通过
```
重新分区
```
）

是的，实际上我指的是并行处理而不是多线程。因此，每当我使用上述命令加载数据集时，spark是否会自动为我分割数据帧并在其上并行执行？