Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件_Hadoop_Apache Spark_Apache Spark Sql_Parquet - Fatal编程技术网

Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件

Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件,hadoop,apache-spark,apache-spark-sql,parquet,Hadoop,Apache Spark,Apache Spark Sql,Parquet,在我们的存储层中,我们添加json文档并以日志结构的方式以拼花格式存储它们(通过拼花cpp和我们的dremel paper实现),以提高写入效率。这意味着在两个或多个拼花地板文件中,单个documentID(documentID是列属性之一)可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是,有没有已知的方法来处理日志结构的拼花地板数据?或者我需要修改拼花地板mr实现来实现同样的功能

在我们的存储层中,我们添加json文档并以日志结构的方式以拼花格式存储它们(通过拼花cpp和我们的dremel paper实现),以提高写入效率。这意味着在两个或多个拼花地板文件中,单个documentID(documentID是列属性之一)可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是,有没有已知的方法来处理日志结构的拼花地板数据?或者我需要修改拼花地板mr实现来实现同样的功能