Java 使用自定义Unix组编写Spark数据集_Java_Apache Spark_Unix_Hadoop_Parquet

Java 使用自定义Unix组编写Spark数据集

java apache-spark unix hadoop

Java 使用自定义Unix组编写Spark数据集,java,apache-spark,unix,hadoop,parquet,Java,Apache Spark,Unix,Hadoop,Parquet,在apache spark中，我有一个正在写入磁盘的数据集： var ds = Seq(1, 2, 3).toDS(); ds.write.parquet("/tmp/01/01"); 正如预期的那样，这将以拼花格式在磁盘上写入记录： vaxaci$ ls -ltr /tmp/01/01/ total 24 drwxr----- 1 vaxaci hadoop 430 Oct 19 14:12 part-00000-ba320358-7ee3-46dc-b90f-3

在apache spark中，我有一个正在写入磁盘的数据集：

var ds = Seq(1, 2, 3).toDS();

ds.write.parquet("/tmp/01/01");

正如预期的那样，这将以拼花格式在磁盘上写入记录：

vaxaci$ ls -ltr /tmp/01/01/
total 24
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00000-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00001-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop  430 Oct 19 14:12 part-00002-ba320358-7ee3-46dc-b90f-3b9c94fa6503-c000.snappy.parquet
drwxr-----  1 vaxaci  hadoop    0 Oct 19 14:12 _SUCCESS

但问题在于它所使用的UNIX组。目前它正在使用组名

hadoop

编写

是否有任何方法可以通过编程（最好是在

java

中）将此组修改为其他组，比如

friends

？

我认为这是不可能的，但解决方案可能是使用“hadoop”组编写文件，然后在java或Python中更改权限。