Apache spark 什么时候使用镶木地板而不是兽人或者兽人而不是镶木地板?

Apache spark 什么时候使用镶木地板而不是兽人或者兽人而不是镶木地板?,apache-spark,hive,bigdata,parquet,orc,Apache Spark,Hive,Bigdata,Parquet,Orc,我浏览了许多堆栈链接和其他博客,他们的反应都不一样。所有的答案大多是受偏袒的启发,但找不到任何具体的数据点,我们可以从中进行选择。无论是数据结构的复杂性,还是压缩,或者是性能,或者是兼容性,这两种文件格式在不同的博客中都被认为是好的 请帮助说明一个替代另一个的特定用例或区域。ORC和Parquet是非常相似的文件格式。与差异相比,他们有更多的相似之处 两者都是柱状文件系统 两者都具有块级压缩 但是,我们有以下指标来选择它们: 拼花地板由Cloudera开发和支持。它的灵感来源于columnar文

我浏览了许多堆栈链接和其他博客,他们的反应都不一样。所有的答案大多是受偏袒的启发,但找不到任何具体的数据点,我们可以从中进行选择。无论是数据结构的复杂性,还是压缩,或者是性能,或者是兼容性,这两种文件格式在不同的博客中都被认为是好的


请帮助说明一个替代另一个的特定用例或区域。

ORC和Parquet是非常相似的文件格式。与差异相比,他们有更多的相似之处

  • 两者都是柱状文件系统
  • 两者都具有块级压缩 但是,我们有以下指标来选择它们:

  • 拼花地板由Cloudera开发和支持。它的灵感来源于columnar文件格式和Google Dremel。因此,Cloudera支持的产品和发行版更喜欢拼花地板。如果您计划使用黑斑羚与您的数据,那么更喜欢拼花地板

  • ORC格式是从RCFile格式演变而来的。当您将复杂的数据类型作为数据的一部分时,这是非常好的

  • 兽人可以提供更好的压缩

  • 在提供谓词下推功能方面,ORC比拼花地板更成熟。最近,这已经提供了拼花地板也


  • 你可以看。它很好地涵盖了这个主题。

    不同版本的不同工具对拼花地板和ORC有不同的优化,性能是许多用例的关键。