Apache spark 在2个远程网络上连接2个Spark实例
我想加入存储在本地DBs上的数据和存储在云上的数据(比如Amazon AWS Cassandra)。 连接只能在本地网络上执行。 我怎样才能做到这一点Apache spark 在2个远程网络上连接2个Spark实例,apache-spark,cassandra,cloud,Apache Spark,Cassandra,Cloud,我想加入存储在本地DBs上的数据和存储在云上的数据(比如Amazon AWS Cassandra)。 连接只能在本地网络上执行。 我怎样才能做到这一点 1:在本地部署Spark并将其连接到本地DB服务器和远程Cassandra云实例,并在单个Spark上下文中连接数据。它符合要求,但意味着从云到本地网络的大规模数据传输,对于涉及高数据量查询的架构没有任何意义 2:在相同的Cassandra节点上部署Spark on cloud,并将数据从远程本地db读取到cloud Spark上下文中。 它消
- 1:在本地部署Spark并将其连接到本地DB服务器和远程Cassandra云实例,并在单个Spark上下文中连接数据。它符合要求,但意味着从云到本地网络的大规模数据传输,对于涉及高数据量查询的架构没有任何意义
- 2:在相同的Cassandra节点上部署Spark on cloud,并将数据从远程本地db读取到cloud Spark上下文中。 它消除了数据传输的问题(内部部署数据库包含少量数据),但在不安全的云环境中公开了内部部署数据
- 3:
谢谢 您是否有任何内部ETL工具?此操作执行的频率如何?您的本地和远程数据库是否相同?连接必须通过在线响应java api发出的查询来执行,该查询向web ui发送json:web ui->java api->Cloud Cassandra连接在Spark实例上创建的本地数据库->java api->web ui