Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Mongodb 从PySpark Dataproc作业连接到Kubernetes引擎集群中托管的DB_Mongodb_Apache Spark_Pyspark_Google Cloud Dataproc_Google Kubernetes Engine - Fatal编程技术网

Mongodb 从PySpark Dataproc作业连接到Kubernetes引擎集群中托管的DB

Mongodb 从PySpark Dataproc作业连接到Kubernetes引擎集群中托管的DB,mongodb,apache-spark,pyspark,google-cloud-dataproc,google-kubernetes-engine,Mongodb,Apache Spark,Pyspark,Google Cloud Dataproc,Google Kubernetes Engine,我是一个新的Dataproc用户,我正在尝试运行一个PySpark作业,该作业应该使用MongoDB连接器从Googke Kubernetes引擎集群中托管的MongoDB复制集中检索数据 有没有办法做到这一点,因为我的replicaset不应该在不使用端口转发或其他功能的情况下从外部访问?在这种情况下,我假设说“外部”,您指向的是internet或GKE群集以外的其他网络。如果将Dataproc群集部署在与GKE群集相同的网络上,并将MongoDB服务公开给内部网络,则应该能够从Datapro

我是一个新的Dataproc用户,我正在尝试运行一个PySpark作业,该作业应该使用MongoDB连接器从Googke Kubernetes引擎集群中托管的MongoDB复制集中检索数据


有没有办法做到这一点,因为我的replicaset不应该在不使用端口转发或其他功能的情况下从外部访问?

在这种情况下,我假设说“外部”,您指向的是internet或GKE群集以外的其他网络。如果将Dataproc群集部署在与GKE群集相同的网络上,并将MongoDB服务公开给内部网络,则应该能够从Dataproc作业连接到数据库,而无需将其公开给网络外部


您可以在此找到更多信息,了解如何创建具有内部IP地址的Cloud Dataproc群集。

只需在GKE中公开您的Mogodb服务,您应该能够从同一VPC网络中访问它

请看一下,以供参考


您还应该能够通过init脚本自动化服务公开

也许我可以从脚本中的init部分执行此操作,该部分将向前运行端口,然后在作业结束时终止它?谢谢您的回答!我想你的链接断了!好的,谢谢!因此,据我所知,我只需检查“仅限内部IP”选项,并在GKE集群所在的同一网络下创建集群,我应该能够通过使用节点的IP访问节点。我说的对吗?关于检查
仅内部IP
选项的事实,这是否意味着我无法从节点访问internet?感谢您的回答,我的mongodb replicaset已经通过服务公开(而不是入口)这就是为什么不使用端口转发之类的东西就无法从kubernetes集群外部访问它。这是您建议我在init脚本中执行的操作吗?因为我不确定这是否是一个好的实践,是吗?似乎我可以使用内部负载平衡