Hadoop大数据文件文本搜索

Hadoop大数据文件文本搜索,hadoop,indexing,solr,full-text-search,bigdata,Hadoop,Indexing,Solr,Full Text Search,Bigdata,我正在从事一个大数据项目cloudera环境,其中来自多个数据源的所有数据都加载到Hadoop中。现在,我有一组.pdf、.jpeg文件,其中包含大量文本。我想根据HDFS中存储的数据搜索这些文件的内容。有人能告诉我我的项目可以使用哪个库/框架吗。。?我开始了解ApachSolr,它似乎很有趣,但我想知道是否还有其他工具对我的项目有用 如有任何反馈/建议,将不胜感激 谢谢大家! 看起来您需要搜索图像处理框架,然后将数据输入solr。类似于的内容感谢您的输入!

我正在从事一个大数据项目cloudera环境,其中来自多个数据源的所有数据都加载到Hadoop中。现在,我有一组.pdf、.jpeg文件,其中包含大量文本。我想根据HDFS中存储的数据搜索这些文件的内容。有人能告诉我我的项目可以使用哪个库/框架吗。。?我开始了解ApachSolr,它似乎很有趣,但我想知道是否还有其他工具对我的项目有用

如有任何反馈/建议,将不胜感激


谢谢大家!

看起来您需要搜索图像处理框架,然后将数据输入solr。类似于

的内容感谢您的输入!