Json 将NOSQL数据加载到Spark节点_Json_Apache Spark_Apache Spark Sql

Json 将NOSQL数据加载到Spark节点

json apache-spark

Json 将NOSQL数据加载到Spark节点,json,apache-spark,apache-spark-sql,Json,Apache Spark,Apache Spark Sql,我试图理解当我从NoSQL源向Spark加载数据时会发生什么。即，它会尝试将记录加载到驱动程序中，然后将其分发到工作节点，还是会同时将记录加载到所有工作节点。基本上有没有并行加载数据的方法？如果有，如何确保同一记录不被多个节点处理？如果不是并行过程，则会将相同的json写入“.json”文件帮助（前提是每行都是记录）它将始终直接加载到工作人员。根据数据的来源和存储方式，可以并行加载数据。在加载数据时，数据将被切分为非重叠行，因此您不必担心将同一数据处理两次。文件格式将不相关。您从哪个数据源（m

我试图理解当我从NoSQL源向Spark加载数据时会发生什么。即，它会尝试将记录加载到驱动程序中，然后将其分发到工作节点，还是会同时将记录加载到所有工作节点。基本上有没有并行加载数据的方法？如果有，如何确保同一记录不被多个节点处理？

如果不是并行过程，则会将相同的json写入“.json”文件帮助（前提是每行都是记录）

它将始终直接加载到工作人员。根据数据的来源和存储方式，可以并行加载数据。在加载数据时，数据将被切分为非重叠行，因此您不必担心将同一数据处理两次。文件格式将不相关。您从哪个数据源（mongo、cassandra、hbase）加载？如果您告诉我源系统，我可以给出更好的答案。

谢谢您的回答。我正在尝试从Cloudant加载它…任何关于这方面的见解都将非常有用。