Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在2个远程网络上连接2个Spark实例_Apache Spark_Cassandra_Cloud - Fatal编程技术网

Apache spark 在2个远程网络上连接2个Spark实例

Apache spark 在2个远程网络上连接2个Spark实例,apache-spark,cassandra,cloud,Apache Spark,Cassandra,Cloud,我想加入存储在本地DBs上的数据和存储在云上的数据(比如Amazon AWS Cassandra)。 连接只能在本地网络上执行。 我怎样才能做到这一点 1:在本地部署Spark并将其连接到本地DB服务器和远程Cassandra云实例,并在单个Spark上下文中连接数据。它符合要求,但意味着从云到本地网络的大规模数据传输,对于涉及高数据量查询的架构没有任何意义 2:在相同的Cassandra节点上部署Spark on cloud,并将数据从远程本地db读取到cloud Spark上下文中。 它消

我想加入存储在本地DBs上的数据和存储在云上的数据(比如Amazon AWS Cassandra)。 连接只能在本地网络上执行。 我怎样才能做到这一点

  • 1:在本地部署Spark并将其连接到本地DB服务器和远程Cassandra云实例,并在单个Spark上下文中连接数据。它符合要求,但意味着从云到本地网络的大规模数据传输,对于涉及高数据量查询的架构没有任何意义

  • 2:在相同的Cassandra节点上部署Spark on cloud,并将数据从远程本地db读取到cloud Spark上下文中。 它消除了数据传输的问题(内部部署数据库包含少量数据),但在不安全的云环境中公开了内部部署数据

  • 3:

这是一个过程: Web UI->Java API->Cloud Cassandra加入在Spark实例上创建的本地数据库->Java API创建json结果->Web UI
谢谢

您是否有任何内部ETL工具?此操作执行的频率如何?您的本地和远程数据库是否相同?连接必须通过在线响应java api发出的查询来执行,该查询向web ui发送json:web ui->java api->Cloud Cassandra连接在Spark实例上创建的本地数据库->java api->web ui