Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 在HDFS中以ORC格式存储avro数据,而不使用配置单元_Hadoop_Apache Spark_Avro_Orc - Fatal编程技术网

Hadoop 在HDFS中以ORC格式存储avro数据,而不使用配置单元

Hadoop 在HDFS中以ORC格式存储avro数据,而不使用配置单元,hadoop,apache-spark,avro,orc,Hadoop,Apache Spark,Avro,Orc,我正在比较以ORC和拼花地板格式存储avro数据, 我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中,但找不到任何信息或API以ORC格式存储Avro数据 兽人只和蜂巢紧密结合吗 谢谢 subahsh您没有说您正在使用Spark,但问题是它被标记了,所以我认为您是 ORC文件格式目前与Spark中的HiveContext紧密相连(我认为仅在1.4及以上版本中可用),但如果您创建一个配置单元上下文,您应该能够以与使用拼花地板相

我正在比较以ORC和拼花地板格式存储avro数据, 我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中,但找不到任何信息或API以ORC格式存储Avro数据

兽人只和蜂巢紧密结合吗

谢谢
subahsh

您没有说您正在使用Spark,但问题是它被标记了,所以我认为您是

ORC文件格式目前与Spark中的HiveContext紧密相连(我认为仅在1.4及以上版本中可用),但如果您创建一个配置单元上下文,您应该能够以与使用拼花地板相同的方式将数据帧写入ORC文件,例如:

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

如果您正在通过Spark dataframes API读取avro数据,那么这就是您所需要的,但是

上有更多详细信息,您能否澄清一下您所说的
“com.twitter”%“parquet avro”%“1.6.0”
?它对我来说只是一种依赖,而不是一种转换数据的方式。此外,我还没有测试过它,但我建议使用Pig-您可以使用
AvroStorage
读取数据,并使用
或storage
编写数据。这样,您就不需要中间表,而且幸运的是,您也不必指定列。感谢Ewan提供的正确方向,下面的依赖关系将提供完整帮助。