Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件_Hadoop_Apache Spark_Apache Spark Sql_Parquet

Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件

hadoop apache-spark

Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件,hadoop,apache-spark,apache-spark-sql,parquet,Hadoop,Apache Spark,Apache Spark Sql,Parquet,在我们的存储层中，我们添加json文档并以日志结构的方式以拼花格式存储它们（通过拼花cpp和我们的dremel paper实现），以提高写入效率。这意味着在两个或多个拼花地板文件中，单个documentID（documentID是列属性之一）可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是，有没有已知的方法来处理日志结构的拼花地板数据？或者我需要修改拼花地板mr实现来实现同样的功能

在我们的存储层中，我们添加json文档并以日志结构的方式以拼花格式存储它们（通过拼花cpp和我们的dremel paper实现），以提高写入效率。这意味着在两个或多个拼花地板文件中，单个documentID（documentID是列属性之一）可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是，有没有已知的方法来处理日志结构的拼花地板数据？或者我需要修改拼花地板mr实现来实现同样的功能