File avro和parquet格式的数据是否必须在hadoop基础设施中写入？_File_Hadoop_Avro_Parquet_File Format

File avro和parquet格式的数据是否必须在hadoop基础设施中写入？

file hadoop

File avro和parquet格式的数据是否必须在hadoop基础设施中写入？,file,hadoop,avro,parquet,file-format,File,Hadoop,Avro,Parquet,File Format,我一直在研究在项目中使用avro、parquet和其他数据源的利弊。如果我从其他不使用Hadoop的人那里接收到输入数据，他们是否能够以avro/parquet格式提供这些输入数据？到目前为止，我对这些格式的阅读只是在Hadoop基础设施的范围内，因此我想知道对于那些只使用Oracle/SQL来提供这种格式的数据的人来说有多困难。在没有Hadoop的情况下使用这些格式是可能的，但这样做的容易程度取决于语言绑定例如，使用Java语言绑定（甚至称为Parquet mr，其中mr代表MapReduc

我一直在研究在项目中使用avro、parquet和其他数据源的利弊。如果我从其他不使用Hadoop的人那里接收到输入数据，他们是否能够以avro/parquet格式提供这些输入数据？到目前为止，我对这些格式的阅读只是在Hadoop基础设施的范围内，因此我想知道对于那些只使用Oracle/SQL来提供这种格式的数据的人来说有多困难。

在没有Hadoop的情况下使用这些格式是可能的，但这样做的容易程度取决于语言绑定

例如，使用Java语言绑定（甚至称为

Parquet mr

，其中mr代表MapReduce），在独立机器上读取/写入拼花文件可能非常麻烦，因为它大量构建在Hadoop类上。它们通常在Hadoop集群的类路径上提供，但在独立计算机上不太容易获得

（虽然

parquet mr

主要是一个Java库，但它也包含一些用户可能希望在其本地机器上运行的工具。为了解决这个问题，

parquet mr

的

parquet tools

模块包含一个名为

local

的编译配置文件，该文件将Hadoop依赖项与编译工具一起打包。H不过，这只适用于

拼花工具

，您必须自己编译它才能进行本地构建。）

另一方面，python语言绑定非常容易设置，并且在独立机器上也可以正常工作。您可以直接使用高级接口或实际实现。

通常，这样的数据集不会在一台机器上累积。因此，Hadoop w/a查询层（或Athena/Bigquery）用于实际分析