Apache spark 集群加密中的googledataproc
我们正在努力使GDPR符合要求。其中一个核心问题是数据加密。我知道当数据在谷歌云平台的节点之间移动时,存在传输中的数据加密。集群内的数据加密情况如何,例如在使用Google Dataproc时,在洗牌过程中?另外,Spark在内部使用Apache spark 集群加密中的googledataproc,apache-spark,encryption,google-cloud-platform,google-cloud-dataproc,Apache Spark,Encryption,Google Cloud Platform,Google Cloud Dataproc,我们正在努力使GDPR符合要求。其中一个核心问题是数据加密。我知道当数据在谷歌云平台的节点之间移动时,存在传输中的数据加密。集群内的数据加密情况如何,例如在使用Google Dataproc时,在洗牌过程中?另外,Spark在内部使用tmpdir时是否对数据进行加密(默认情况下,存在纯文本文件) Dataproc构建在GCE虚拟机上,因此同样的安全性也适用 GCE VM(PDs或本地SSD)磁盘上的所有数据都已加密:。所以Spark的tmpdir确实是加密的 离开谷歌数据中心的网络通信(如跨区域
tmp
dir时是否对数据进行加密(默认情况下,存在纯文本文件) Dataproc构建在GCE虚拟机上,因此同样的安全性也适用
GCE VM(PDs或本地SSD)磁盘上的所有数据都已加密:。所以Spark的tmp
dir确实是加密的
离开谷歌数据中心的网络通信(如跨区域通信)是加密的。此外,谷歌API访问是加密的。但是,数据中心内的节点间通信(可能是集群内的所有Dataproc通信)未加密。您可以在此处阅读更多:
也就是说,集群内的通信基本上是空的。节点到节点的通信通过隔离服务器上的内部IP进行。Dataproc对如何配置防火墙规则进行了详细说明
您还可以使用Dataproc来避免虚拟机上有外部IP地址
这是关于谷歌云GDPR合规性的文档:。非常感谢Karthik的快速而有用的回复:)。