Hadoop 使用spark保存和处理大量小文件
我是大数据新手!我有一些关于如何处理以及如何在电子病历集群上的spark中保存大量小文件(pdf和ppt/pptx)的问题 我的目标是将数据(pdf和pptx)保存到HDFS(或集群中的某种类型的数据存储)中,然后从spark中提取该文件的内容,并将其保存在elasticsearch或某些关系数据库中Hadoop 使用spark保存和处理大量小文件,hadoop,apache-spark,hdfs,amazon-emr,Hadoop,Apache Spark,Hdfs,Amazon Emr,我是大数据新手!我有一些关于如何处理以及如何在电子病历集群上的spark中保存大量小文件(pdf和ppt/pptx)的问题 我的目标是将数据(pdf和pptx)保存到HDFS(或集群中的某种类型的数据存储)中,然后从spark中提取该文件的内容,并将其保存在elasticsearch或某些关系数据库中 我读过在HDFS中保存数据时小文件的问题。保存大量pdf和pptx文件(最大大小为100-120 MB)的最佳方法是什么?我读过Sequence文件和HAR(hadoop归档),但没有一本我不知道
2) 在处理文件时,可以区分项目和分区。如果有10000个文件,可以创建100个分区,每个分区包含100个文件。每个文件都需要一次处理一个文件,因为每个文件的标题信息都是相关的,并且可能不同。同时,我找到了一些解决HDFS中小文件问题的方法。我可以使用以下方法:
我已经在Hadoop上处理了一个PDF文件,希望下面的链接有帮助(注意:处理是在Mapreduce中完成的)