使用hadoop和相关技术索引和搜索大量不同格式的文档_Hadoop_Full Text Search_Bigdata

使用hadoop和相关技术索引和搜索大量不同格式的文档

hadoop

使用hadoop和相关技术索引和搜索大量不同格式的文档,hadoop,full-text-search,bigdata,Hadoop,Full Text Search,Bigdata,我们公司试图围绕大数据Hadoop和相关生态系统培养一些能力。我们正在考虑进行概念验证，我们的目标是存储、索引和搜索大量PDF文件、电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？如果是，那么它是hadoop用例吗？如果是这样，那么我们应该追求什么样的技术呢我们尝试将PDF存储在HDFS中，并通过并行映射器作业成功创建lucene索引，并将索引存储在数据节点本地临时目录中。但是我们不确定我们是否正确地使用了它，如何使它成为一个合适的大数据Hadoop使用案例，以及如何在技

我们公司试图围绕大数据Hadoop和相关生态系统培养一些能力。
我们正在考虑进行概念验证，我们的目标是存储、索引和搜索大量PDF文件、电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？
如果是，那么它是hadoop用例吗？如果是这样，那么我们应该追求什么样的技术呢

我们尝试将PDF存储在HDFS中，并通过并行映射器作业成功创建lucene索引，并将索引存储在数据节点本地临时目录中。
但是我们不确定我们是否正确地使用了它，如何使它成为一个合适的大数据Hadoop使用案例，以及如何在技术堆栈上做出决定，是Hadoop还是无SQL数据库或Elasticsearch等等

我们的目标是围绕搜索大量不同格式的文档进行概念验证，如果可能，我们希望使用Hadoop。。。有人能帮我们找到正确的方向吗

谢谢

如果您不打算对HDFS中存储的文件数据进行任何分析，Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据，并且希望将这些数据压缩到表中以供将来分析，那么可以使用HDFS和Hive/Pig来提取它们。您可能不需要NoSQL，除非您想要高可用性或一致性，在您的情况下，我不这么认为。

也许您会在本文中发现一些有趣的东西：