Hadoop 在HDFS中以ORC格式存储avro数据,而不使用配置单元
我正在比较以ORC和拼花地板格式存储avro数据, 我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中,但找不到任何信息或API以ORC格式存储Avro数据 兽人只和蜂巢紧密结合吗 谢谢Hadoop 在HDFS中以ORC格式存储avro数据,而不使用配置单元,hadoop,apache-spark,avro,orc,Hadoop,Apache Spark,Avro,Orc,我正在比较以ORC和拼花地板格式存储avro数据, 我使用“com.twitter”%“parquet Avro”%“1.6.0”成功地将Avro数据存储到parquet中,但找不到任何信息或API以ORC格式存储Avro数据 兽人只和蜂巢紧密结合吗 谢谢 subahsh您没有说您正在使用Spark,但问题是它被标记了,所以我认为您是 ORC文件格式目前与Spark中的HiveContext紧密相连(我认为仅在1.4及以上版本中可用),但如果您创建一个配置单元上下文,您应该能够以与使用拼花地板相
subahsh您没有说您正在使用Spark,但问题是它被标记了,所以我认为您是 ORC文件格式目前与Spark中的HiveContext紧密相连(我认为仅在1.4及以上版本中可用),但如果您创建一个配置单元上下文,您应该能够以与使用拼花地板相同的方式将数据帧写入ORC文件,例如:
import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")
如果您正在通过Spark dataframes API读取avro数据,那么这就是您所需要的,但是上有更多详细信息,您能否澄清一下您所说的
“com.twitter”%“parquet avro”%“1.6.0”
?它对我来说只是一种依赖,而不是一种转换数据的方式。此外,我还没有测试过它,但我建议使用Pig-您可以使用AvroStorage
读取数据,并使用或storage
编写数据。这样,您就不需要中间表,而且幸运的是,您也不必指定列。感谢Ewan提供的正确方向,下面的依赖关系将提供完整帮助。