Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/dart/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Avro、parquet和SequenceFileFormat在Hadoop生态系统中的位置及其应用_Hadoop_Hive_Avro_Impala_Parquet - Fatal编程技术网

Avro、parquet和SequenceFileFormat在Hadoop生态系统中的位置及其应用

Avro、parquet和SequenceFileFormat在Hadoop生态系统中的位置及其应用,hadoop,hive,avro,impala,parquet,Hadoop,Hive,Avro,Impala,Parquet,我看到在导入和存储到HDFS时使用了不同的文件格式,数据处理引擎在执行自己的一组过程时也使用了这些格式。那么这些文件格式有什么区别,以及它们如何针对不同的用例进行选择。作为一个新手,这会造成混乱。请帮助相同。根据您拥有的数据类型、与处理工具的兼容性、模式演变、文件大小、查询类型和读取性能,选择取决于您面临的用例 一般而言: Avro更适合于随时间变化的事件数据 序列用于MR作业之间的数据集分片 由于其柱状格式,拼花地板更适合分析 这是一些可以帮助你的钥匙 编写性能越高+拥有越多越快 顺序:+++

我看到在导入和存储到HDFS时使用了不同的文件格式,数据处理引擎在执行自己的一组过程时也使用了这些格式。那么这些文件格式有什么区别,以及它们如何针对不同的用例进行选择。作为一个新手,这会造成混乱。请帮助相同。

根据您拥有的数据类型、与处理工具的兼容性、模式演变、文件大小、查询类型和读取性能,选择取决于您面临的用例

一般而言:

Avro更适合于随时间变化的事件数据 序列用于MR作业之间的数据集分片 由于其柱状格式,拼花地板更适合分析 这是一些可以帮助你的钥匙

编写性能越高+拥有越多越快

顺序:+++ Avro:++ 拼花地板:+ 阅读能力越强,阅读速度越快

顺序:+ Avro:++ 拼花地板:+++++ 文件大小越多+拥有的文件越小

顺序:+ 阿夫罗:++ 拼花地板:+++ 下面是关于每种文件类型的一些事实

阿夫罗:

在模式进化中有更好的表现 是面向行的二进制格式 有一个模式 该文件除包含数据外还包含架构。 支持模式演化 可以压缩 紧凑快速的二进制格式 拼花地板:

写得慢,读得快 是面向列的二进制格式 支持压缩 在需要查询特定列时,在磁盘I/O方面进行了优化和高效 序列文件:

是面向行的格式 即使数据被压缩,也支持拆分 可用于在hadoop中打包小文件
我希望我的回答能帮助您

根据您所拥有的数据类型、与处理工具的兼容性、模式演变、文件大小、查询类型和读取性能,选择取决于您所面临的用例

一般而言:

Avro更适合于随时间变化的事件数据 序列用于MR作业之间的数据集分片 由于其柱状格式,拼花地板更适合分析 这是一些可以帮助你的钥匙

编写性能越高+拥有越多越快

顺序:+++ Avro:++ 拼花地板:+ 阅读能力越强,阅读速度越快

顺序:+ Avro:++ 拼花地板:+++++ 文件大小越多+拥有的文件越小

顺序:+ 阿夫罗:++ 拼花地板:+++ 下面是关于每种文件类型的一些事实

阿夫罗:

在模式进化中有更好的表现 是面向行的二进制格式 有一个模式 该文件除包含数据外还包含架构。 支持模式演化 可以压缩 紧凑快速的二进制格式 拼花地板:

写得慢,读得快 是面向列的二进制格式 支持压缩 在需要查询特定列时,在磁盘I/O方面进行了优化和高效 序列文件:

是面向行的格式 即使数据被压缩,也支持拆分 可用于在hadoop中打包小文件
我希望我的回答能对你有所帮助

非常感谢你的时间:。这是非常有用的+2将简单文本文件转换为这些格式时,它们的转换开销如何。?是否取决于技术取决于模式,例如,对于avro,开销取决于根据模式大小确定的数据大小。但是,如果存在较大的开销,您可以使用其他技术来绕过这些限制,如confluent.io。注:如果你觉得我的答案有用,请接受并对其进行排名,以帮助其他人。非常感谢你的时间:。这是非常有用的+2将简单文本文件转换为这些格式时,它们的转换开销如何。?是否取决于技术取决于模式,例如,对于avro,开销取决于根据模式大小确定的数据大小。但是,如果存在较大的开销,您可以使用其他技术来绕过这些限制,如confluent.io。注:如果你觉得我的答案有用,请接受并排名,以帮助其他人