使用hadoop和相关技术索引和搜索大量不同格式的文档

使用hadoop和相关技术索引和搜索大量不同格式的文档,hadoop,full-text-search,bigdata,Hadoop,Full Text Search,Bigdata,我们公司试图围绕大数据Hadoop和相关生态系统培养一些能力。 我们正在考虑进行概念验证,我们的目标是存储、索引和搜索大量PDF文件、电子邮件文档和word文档。首先,我想知道这是一个大数据用例吗? 如果是,那么它是hadoop用例吗?如果是这样,那么我们应该追求什么样的技术呢 我们尝试将PDF存储在HDFS中,并通过并行映射器作业成功创建lucene索引,并将索引存储在数据节点本地临时目录中。 但是我们不确定我们是否正确地使用了它,如何使它成为一个合适的大数据Hadoop使用案例,以及如何在技

我们公司试图围绕大数据Hadoop和相关生态系统培养一些能力。
我们正在考虑进行概念验证,我们的目标是存储、索引和搜索大量PDF文件、电子邮件文档和word文档。首先,我想知道这是一个大数据用例吗?
如果是,那么它是hadoop用例吗?如果是这样,那么我们应该追求什么样的技术呢

我们尝试将PDF存储在HDFS中,并通过并行映射器作业成功创建lucene索引,并将索引存储在数据节点本地临时目录中。
但是我们不确定我们是否正确地使用了它,如何使它成为一个合适的大数据Hadoop使用案例,以及如何在技术堆栈上做出决定,是Hadoop还是无SQL数据库或Elasticsearch等等

我们的目标是围绕搜索大量不同格式的文档进行概念验证,如果可能,我们希望使用Hadoop。。。有人能帮我们找到正确的方向吗


谢谢

如果您不打算对HDFS中存储的文件数据进行任何分析,Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据,并且希望将这些数据压缩到表中以供将来分析,那么可以使用HDFS和Hive/Pig来提取它们。您可能不需要NoSQL,除非您想要高可用性或一致性,在您的情况下,我不这么认为。

也许您会在本文中发现一些有趣的东西: