Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/file/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
File avro和parquet格式的数据是否必须在hadoop基础设施中写入?_File_Hadoop_Avro_Parquet_File Format - Fatal编程技术网

File avro和parquet格式的数据是否必须在hadoop基础设施中写入?

File avro和parquet格式的数据是否必须在hadoop基础设施中写入?,file,hadoop,avro,parquet,file-format,File,Hadoop,Avro,Parquet,File Format,我一直在研究在项目中使用avro、parquet和其他数据源的利弊。如果我从其他不使用Hadoop的人那里接收到输入数据,他们是否能够以avro/parquet格式提供这些输入数据?到目前为止,我对这些格式的阅读只是在Hadoop基础设施的范围内,因此我想知道对于那些只使用Oracle/SQL来提供这种格式的数据的人来说有多困难。在没有Hadoop的情况下使用这些格式是可能的,但这样做的容易程度取决于语言绑定 例如,使用Java语言绑定(甚至称为Parquet mr,其中mr代表MapReduc

我一直在研究在项目中使用avro、parquet和其他数据源的利弊。如果我从其他不使用Hadoop的人那里接收到输入数据,他们是否能够以avro/parquet格式提供这些输入数据?到目前为止,我对这些格式的阅读只是在Hadoop基础设施的范围内,因此我想知道对于那些只使用Oracle/SQL来提供这种格式的数据的人来说有多困难。

在没有Hadoop的情况下使用这些格式是可能的,但这样做的容易程度取决于语言绑定

例如,使用Java语言绑定(甚至称为
Parquet mr
,其中mr代表MapReduce),在独立机器上读取/写入拼花文件可能非常麻烦,因为它大量构建在Hadoop类上。它们通常在Hadoop集群的类路径上提供,但在独立计算机上不太容易获得

(虽然
parquet mr
主要是一个Java库,但它也包含一些用户可能希望在其本地机器上运行的工具。为了解决这个问题,
parquet mr
parquet tools
模块包含一个名为
local
的编译配置文件,该文件将Hadoop依赖项与编译工具一起打包。H不过,这只适用于
拼花工具
,您必须自己编译它才能进行本地构建。)


另一方面,python语言绑定非常容易设置,并且在独立机器上也可以正常工作。您可以直接使用高级接口或实际实现。

通常,这样的数据集不会在一台机器上累积。因此,Hadoop w/a查询层(或Athena/Bigquery)用于实际分析