Json 将NOSQL数据加载到Spark节点

Json 将NOSQL数据加载到Spark节点,json,apache-spark,apache-spark-sql,Json,Apache Spark,Apache Spark Sql,我试图理解当我从NoSQL源向Spark加载数据时会发生什么。即,它会尝试将记录加载到驱动程序中,然后将其分发到工作节点,还是会同时将记录加载到所有工作节点。基本上有没有并行加载数据的方法?如果有,如何确保同一记录不被多个节点处理? 如果不是并行过程,则会将相同的json写入“.json”文件帮助(前提是每行都是记录)它将始终直接加载到工作人员。根据数据的来源和存储方式,可以并行加载数据。在加载数据时,数据将被切分为非重叠行,因此您不必担心将同一数据处理两次。文件格式将不相关。您从哪个数据源(m

我试图理解当我从NoSQL源向Spark加载数据时会发生什么。即,它会尝试将记录加载到驱动程序中,然后将其分发到工作节点,还是会同时将记录加载到所有工作节点。基本上有没有并行加载数据的方法?如果有,如何确保同一记录不被多个节点处理?
如果不是并行过程,则会将相同的json写入“.json”文件帮助(前提是每行都是记录)

它将始终直接加载到工作人员。根据数据的来源和存储方式,可以并行加载数据。在加载数据时,数据将被切分为非重叠行,因此您不必担心将同一数据处理两次。文件格式将不相关。您从哪个数据源(mongo、cassandra、hbase)加载?如果您告诉我源系统,我可以给出更好的答案。

谢谢您的回答。我正在尝试从Cloudant加载它…任何关于这方面的见解都将非常有用。