Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何避免/禁用.crc文件以在SparkyR中写入csv文件?_R_Csv_Amazon S3_Sparklyr - Fatal编程技术网

如何避免/禁用.crc文件以在SparkyR中写入csv文件?

如何避免/禁用.crc文件以在SparkyR中写入csv文件?,r,csv,amazon-s3,sparklyr,R,Csv,Amazon S3,Sparklyr,我正在使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件有一个.crc文件 我正在寻找Hadoop/Spark的任何函数或属性,以避免生成这些.crc文件 flights_tbl<-copy_to(sc,flights,"flights") spark_write_csv(flights_tbl, path="xxx" , mode = "overwrite") 这是不可能的。为所有Spark数据源和内置的旧RDDAPI生

我正在使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件有一个.crc文件

我正在寻找Hadoop/Spark的任何函数或属性,以避免生成这些.crc文件

flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl,  path="xxx" , mode = "overwrite")

这是不可能的。为所有Spark数据源和内置的旧RDDAPI生成校验和文件,并且该行为不可配置

要完全避免它,您需要:

  • 实现您自己的Hadoop输入格式
  • 或者实现您自己的数据源(v1或v2),它不依赖于Hadoop输入格式

并添加
spakryr
wrappers以在R代码库中公开。

这是不可能的。为所有Spark数据源和内置的旧RDDAPI生成校验和文件,并且该行为不可配置

要完全避免它,您需要:

  • 实现您自己的Hadoop输入格式
  • 或者实现您自己的数据源(v1或v2),它不依赖于Hadoop输入格式

并添加
spakryr
wrappers以在R代码库中公开。

与.crc文件相关的文件更可能与输出存储系统相关,而不是与Hadoop/Spark设置相关。这里有一个简单的测试。在本地运行spark并分别将一个简单的数据帧保存到本地存储和S3,您将看到本地输出文件夹中有.crc文件,但S3输出文件夹中没有.crc文件。这两种情况使用了本地系统相同的Hadoop/Spark设置。与.crc相关的文件更有可能与输出存储系统相关,而不是Hadoop/Spark设置。这里有一个简单的测试。在本地运行spark并分别将一个简单的数据帧保存到本地存储和S3,您将看到本地输出文件夹中有.crc文件,但S3输出文件夹中没有.crc文件。这两个案例使用了本地系统相同的Hadoop/Spark设置。谢谢。因此,crc文件在使用SparkyR将spark数据帧写入S3时不会产生任何问题?写入S3时不会出现问题,但如果加载到Redshift中,crc文件会把事情搞砸。此外,似乎一定有办法,因为EMR不会生成这些文件。谢谢。因此,当使用SparkyR将spark数据帧写入S3时,crc文件不会产生任何问题?写入S3时不会出现问题,但如果加载到Redshift中,crc文件会把事情搞砸。此外,似乎一定有办法,因为EMR不会生成这些文件。
.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc

part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000