Hadoop 如何将小型二进制文件作为元数据映射放入拼花地板文件<;文件名、文件内容>;?有什么限制吗?

Hadoop 如何将小型二进制文件作为元数据映射放入拼花地板文件<;文件名、文件内容>;?有什么限制吗?,hadoop,parquet,Hadoop,Parquet,如何将几十个小二进制文件作为元数据放入拼花地板文件中Map 小文件是文档、图片,平均约100KB 我们已经将一些短字符串值添加到拼花元信息地图中,但是否对地图条目的数量、地图的总大小或单个地图值的大小有限制?如果是,有哪些限制?也许我的目标不太可能违反限制?希望@Gerardo能提供一些细节,但官方文件说元素大小没有限制:状态 类型 文件格式支持的类型应尽可能少 尽可能地将重点放在类型对磁盘存储的影响上。对于 例如,存储中不明确支持16位整数 格式,因为它们由32位整数覆盖,具有高效的 编码。这

如何将几十个小二进制文件作为元数据放入拼花地板文件中
Map

小文件是文档、图片,平均约100KB


我们已经将一些短字符串值添加到拼花元信息地图中,但是否对地图条目的数量、地图的总大小或单个地图值的大小有限制?如果是,有哪些限制?也许我的目标不太可能违反限制?

希望@Gerardo能提供一些细节,但官方文件说元素大小没有限制:状态

类型 文件格式支持的类型应尽可能少 尽可能地将重点放在类型对磁盘存储的影响上。对于 例如,存储中不明确支持16位整数 格式,因为它们由32位整数覆盖,具有高效的 编码。这降低了实现读卡器和读卡器的复杂性 格式的编写器。类型为:-布尔值:1位布尔值- INT32:32位有符号整数-INT64:64位有符号整数-INT96:96位 有符号整数-浮点:IEEE 32位浮点值-双精度:IEEE 64位浮点值-字节数组:任意长字节 数组


(我的重点)。还有其他类似字符串、JSON和BSON的代码,它们基于字节数组。它们的长度应该是无限的。(对于拼花地板,计算机内存仍然是有限的;-)

感谢您的帮助!不仅仅是官方的问题:你在C++中检查了一个解决方案吗?JAVA我有一个c++的解决方案很好!你能用java创建答案项目吗?但是我是C++的家伙。Gerardo:你有一个回答。(见上面Kaponir)谢谢-根据您提供的链接,KeyValue是。所以,也许二进制文件内容应该进行Base64转换。@Kaponir:不客气。如果您不能直接使用,那么使用Base64可能是一个不错的选择。对用户来说:如果KeyValue是,您能澄清我如何在元数据二进制中使用它吗?也许这是打字错误?@Kaponir:(=UTF8)字符串格式是一种逻辑格式,位于。将额外的元数据定义为映射,因此您可能需要使用base64。