Apache spark 按列保护拼花地板文件

Apache spark 按列保护拼花地板文件,apache-spark,parquet,database-administration,database-security,apache-ranger,Apache Spark,Parquet,Database Administration,Database Security,Apache Ranger,我一直在寻找一种方法来保护拼花地板文件,按列排列,以便Spark访问。理想情况下,这与配置单元的工作方式相同,即系统管理员为不同的组和列定义访问策略 我一直在通过Hortoworks HDP尝试Ranger,然而,似乎Spark和Parquet的插件还没有出现 我还能够使用和视图设计出一个解决方案,但是,目前这是不可接受的,主要是因为社区对演练的支持仍然很少 是否有人面临同样的要求和/或有解决方案的方向?经过大量研究,我得出结论,这是不可能的 Ranger使用其他工具(HDFS、Hive、HBa

我一直在寻找一种方法来保护拼花地板文件,按列排列,以便Spark访问。理想情况下,这与配置单元的工作方式相同,即系统管理员为不同的组和列定义访问策略

我一直在通过Hortoworks HDP尝试Ranger,然而,似乎Spark和Parquet的插件还没有出现

我还能够使用和视图设计出一个解决方案,但是,目前这是不可接受的,主要是因为社区对演练的支持仍然很少


是否有人面临同样的要求和/或有解决方案的方向?

经过大量研究,我得出结论,这是不可能的

Ranger使用其他工具(HDFS、Hive、HBase等)的方式是使用实现这些工具提供的挂钩的插件。例如,要创建用于保护配置单元的自定义插件,需要通过创建一个HiveAuthorizer。但是对于拼花地板没有这样的挂钩,因为它只不过是一种文件格式


一个可能的解决方案是为Ranger的HDFS插件创建一个扩展,该解决方案允许从Ranger以列方式保护拼花地板文件。此扩展将实现通过Ranger定义的拼花地板文件的访问规则。这样,我们就可以像对待Hive或HBase一样无缝保护拼花地板文件,只要文件存储在HDFS中。

您以后能找到解决方案吗?不太可能。在某个时候,我们(我现在的团队)将不得不实施它。事情一发生我就回来。