Hadoop 图像的Avro文件类型?

Hadoop 图像的Avro文件类型?,hadoop,avro,sequencefile,Hadoop,Avro,Sequencefile,我试着用Hadoop来解决这个问题 如果使用Python将图像存储在HDFS中并在之后进行处理,最好的文件格式是Avro还是SequenceFile SequenceFile是面向键值的,所以我认为Avro文件会工作得更好?我使用SequenceFile在HDFS中存储图像,效果很好。Avro和SequenceFile都是二进制文件格式,因此它们可以高效地存储图像。作为SequenceFile中的键,我通常使用原始图像文件名 SequenceFile用于许多图像处理产品,如OpenIMAJ。您可

我试着用Hadoop来解决这个问题

如果使用Python将图像存储在HDFS中并在之后进行处理,最好的文件格式是Avro还是SequenceFile


SequenceFile是面向键值的,所以我认为Avro文件会工作得更好?

我使用SequenceFile在HDFS中存储图像,效果很好。Avro和SequenceFile都是二进制文件格式,因此它们可以高效地存储图像。作为SequenceFile中的键,我通常使用原始图像文件名

SequenceFile用于许多图像处理产品,如OpenIMAJ。您可以使用现有工具处理SequenceFile中的图像,例如OpenIMAJ

另外,你可以看看。这是HIPI()提供的一种特殊格式。根据我的经验,HipiImageBundle比SequenceFile具有更好的性能。但in只能由HIPI使用

如果您没有大量的文件(少于1M),您可以尝试将它们存储在一个大文件中而不打包,以加快处理速度

我从不使用Avro存储图像,也不知道有哪个项目使用它