Hadoop 在HDFS中以ORC格式存储avro数据，而不使用配置单元_Hadoop_Apache Spark_Avro_Orc

Hadoop 在HDFS中以ORC格式存储avro数据，而不使用配置单元

hadoop apache-spark

Hadoop 在HDFS中以ORC格式存储avro数据，而不使用配置单元,hadoop,apache-spark,avro,orc,Hadoop,Apache Spark,Avro,Orc,我正在比较以ORC和拼花地板格式存储avro数据，我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中，但找不到任何信息或API以ORC格式存储Avro数据兽人只和蜂巢紧密结合吗谢谢 subahsh您没有说您正在使用Spark，但问题是它被标记了，所以我认为您是 ORC文件格式目前与Spark中的HiveContext紧密相连（我认为仅在1.4及以上版本中可用），但如果您创建一个配置单元上下文，您应该能够以与使用拼花地板相

我正在比较以ORC和拼花地板格式存储avro数据，我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中，但找不到任何信息或API以ORC格式存储Avro数据

兽人只和蜂巢紧密结合吗

谢谢

subahsh

您没有说您正在使用Spark，但问题是它被标记了，所以我认为您是

ORC文件格式目前与Spark中的HiveContext紧密相连（我认为仅在1.4及以上版本中可用），但如果您创建一个配置单元上下文，您应该能够以与使用拼花地板相同的方式将数据帧写入ORC文件，例如：

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

如果您正在通过Spark dataframes API读取avro数据，那么这就是您所需要的，但是

上有更多详细信息，您能否澄清一下您所说的

“com.twitter”%“parquet avro”%“1.6.0”

？它对我来说只是一种依赖，而不是一种转换数据的方式。此外，我还没有测试过它，但我建议使用Pig-您可以使用

AvroStorage

读取数据，并使用

或storage

编写数据。这样，您就不需要中间表，而且幸运的是，您也不必指定列。感谢Ewan提供的正确方向，下面的依赖关系将提供完整帮助。