Java 文件处理中的apacheavro_Java_C++_Apache_Avro_Lzo

Java 文件处理中的apacheavro

java c++ apache

Java 文件处理中的apacheavro,java,c++,apache,avro,lzo,Java,C++,Apache,Avro,Lzo,apacheavro在文件处理中有什么用途？谁能向我解释一下，如果我需要以.LZO格式处理TBs数据，它有用吗我有C++和java之间的选择，什么会更适合AVRO？< /P> 我真正的目的是读取压缩文件，并根据一些标准将它们分类为新的不同文件提前谢谢你……） //将user1、user2和user3序列化到磁盘 DatumWriter userDatumWriter=新的指定DatumWriter（User.class）； DataFileWriter DataFileWriter=新的Da

apacheavro在文件处理中有什么用途？谁能向我解释一下，如果我需要以.LZO格式处理TBs数据，它有用吗

<>我有C++和java之间的选择，什么会更适合AVRO？< /P> 我真正的目的是读取压缩文件，并根据一些标准将它们分类为新的不同文件

提前谢谢你……）

//将user1、user2和user3序列化到磁盘
DatumWriter userDatumWriter=新的指定DatumWriter（User.class）；
DataFileWriter DataFileWriter=新的DataFileWriter（userDatumWriter）；
创建（user1.getSchema（），新文件（“users.avro”）；
dataFileWriter.append（user1）；
dataFileWriter.append（user2）；
dataFileWriter.append（user3）；
dataFileWriter.close（）；

在地图减少广告数据分析中，它可以帮助您避免瓶颈。在一个典型的ETL流中，如果数据被压缩，或者传输速度更快，那么有时一切都依赖于从a点到B点的大数据块

此外，该文件结构针对hadoop进行了优化，类似于“hadoop序列文件”。LZO缺乏hadoop的特定优化结构，但正在取得进展

Arvo文件与语言无关，LZO和Arvo都有一个C接口，从那篇文章中，他们正在开发一些pig udf，所以我希望在不久的将来看到一些pig LZO桥接到HDF

Arvo文件是基于模式的，

这很有用，因为您可以在运行时根据其模式发现文件的格式/结构

在map reduce ad数据分析中，文档是一个很好的起点，它可以帮助您避免瓶颈。在一个典型的ETL流中，如果数据被压缩，或者传输速度更快，那么有时一切都依赖于从a点到B点的大数据块

此外，该文件结构针对hadoop进行了优化，类似于“hadoop序列文件”。LZO缺乏hadoop的特定优化结构，但正在取得进展

Arvo文件与语言无关，LZO和Arvo都有一个C接口，从那篇文章中，他们正在开发一些pig udf，所以我希望在不久的将来看到一些pig LZO桥接到HDF

Arvo文件是基于模式的，

这很有用，因为您可以在运行时根据其模式发现文件的格式/结构

文档是一个很好的起点

// Serialize user1, user2 and user3 to disk
  DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User>    (User.class);
  DataFileWriter<User> dataFileWriter = new DataFileWriter<User>(userDatumWriter);
 dataFileWriter.create(user1.getSchema(), new File("users.avro"));
 dataFileWriter.append(user1);
 dataFileWriter.append(user2);
 dataFileWriter.append(user3);
 dataFileWriter.close();