Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花摄取路径:“源到驱动程序到工作人员”或“源到工作人员”_Apache Spark - Fatal编程技术网

Apache spark 火花摄取路径:“源到驱动程序到工作人员”或“源到工作人员”

Apache spark 火花摄取路径:“源到驱动程序到工作人员”或“源到工作人员”,apache-spark,Apache Spark,当Spark接收数据时,是否存在特定的情况,即它必须经过驾驶员,然后从驾驶员到工人?同样的问题也适用于员工直接阅读 我想我只是想找出导致这种或那种情况的条件或情况,以及在每种情况下分区是如何发生的 如果您将自己限制为内置方法,则除非您使用以下方法从本地方法创建分布式数据结构: SparkSession.createDataset SparkContext.parallelize 数据总是由工作人员直接访问,但数据分布的细节因源而异 RDD通常依赖于Hadoop输入格式,但Spark SQL和数据

当Spark接收数据时,是否存在特定的情况,即它必须经过驾驶员,然后从驾驶员到工人?同样的问题也适用于员工直接阅读


我想我只是想找出导致这种或那种情况的条件或情况,以及在每种情况下分区是如何发生的

如果您将自己限制为内置方法,则除非您使用以下方法从本地方法创建分布式数据结构:

SparkSession.createDataset SparkContext.parallelize 数据总是由工作人员直接访问,但数据分布的细节因源而异

RDD通常依赖于Hadoop输入格式,但Spark SQL和数据源API至少部分独立,至少在配置方面是如此

这并不意味着数据总是正确分布的。在某些情况下,JDBC、流式接收器数据仍然可以通过单个节点进行管道传输