Hadoop 使用MapReduce在HDFS中搜索文件

Hadoop 使用MapReduce在HDFS中搜索文件,hadoop,mapreduce,filesystems,distributed,distributed-computing,Hadoop,Mapreduce,Filesystems,Distributed,Distributed Computing,我对Hadoop非常陌生,想知道如何使用MapReduce在HDFS中搜索指定的文件名?假设我有数千TB的图像地图数据,这些数据由它们的纬度/经度坐标命名。如果提供了给定的lat/long坐标,我如何使用MapReduce快速找到该文件 我四处搜索,发现一种方法是通过管道将其发送给grep: hdfs dfs -ls -R / | grep [search_term] 但对于许多大数据文件来说,这将非常缓慢。以下是我的看法: 不建议在HDFS中存储太多文件。检查此链接: 使用MR进行搜索效率不

我对Hadoop非常陌生,想知道如何使用MapReduce在HDFS中搜索指定的文件名?假设我有数千TB的图像地图数据,这些数据由它们的纬度/经度坐标命名。如果提供了给定的lat/long坐标,我如何使用MapReduce快速找到该文件

我四处搜索,发现一种方法是通过管道将其发送给grep:

hdfs dfs -ls -R / | grep [search_term]
但对于许多大数据文件来说,这将非常缓慢。

以下是我的看法:

  • 不建议在HDFS中存储太多文件。检查此链接:

  • 使用MR进行搜索效率不高。尤其是当您的数据没有分区或索引时

  • 您的案例最好使用KeyValue存储或分布式搜索工具,如Elastic search(鉴于我对您的用例了解有限)