Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件
在我们的存储层中,我们添加json文档并以日志结构的方式以拼花格式存储它们(通过拼花cpp和我们的dremel paper实现),以提高写入效率。这意味着在两个或多个拼花地板文件中,单个documentID(documentID是列属性之一)可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是,有没有已知的方法来处理日志结构的拼花地板数据?或者我需要修改拼花地板mr实现来实现同样的功能Hadoop 如何使用拼花mr读取具有日志结构数据的拼花文件,hadoop,apache-spark,apache-spark-sql,parquet,Hadoop,Apache Spark,Apache Spark Sql,Parquet,在我们的存储层中,我们添加json文档并以日志结构的方式以拼花格式存储它们(通过拼花cpp和我们的dremel paper实现),以提高写入效率。这意味着在两个或多个拼花地板文件中,单个documentID(documentID是列属性之一)可以有多个行条目。documentID应该是唯一的/主键。我打算通过拼花配置单元存储处理程序以及spark sql来读取这些拼花文件。我的问题是,有没有已知的方法来处理日志结构的拼花地板数据?或者我需要修改拼花地板mr实现来实现同样的功能