Hadoop 什么是适合我的索引和处理大数据的工具?

Hadoop 什么是适合我的索引和处理大数据的工具?,hadoop,indexing,mapreduce,Hadoop,Indexing,Mapreduce,我正在尝试索引和存储大数据,但我对使用什么工具有点困惑。让我先说我是一个新手,在这个话题上只有理论知识。我想: 1) 使用Hadoop(当然) 2) 使用三台不同的PC从平面文件中提取日志数据 3) 将数据转换为结构化形式并加载到HDFS中,以便索引和mapreduce 我的问题是: a) 在尝试索引三个字段时,是否可以映射索引映射索引映射索引缩减?如果没有,如何建立索引?如有可能,按顺序进行解释(例如索引映射减少) b) 从提取到储存,正确的工具是什么 c) Hadoop可以用于简单的搜索,还

我正在尝试索引和存储大数据,但我对使用什么工具有点困惑。让我先说我是一个新手,在这个话题上只有理论知识。我想:

1) 使用Hadoop(当然)

2) 使用三台不同的PC从平面文件中提取日志数据

3) 将数据转换为结构化形式并加载到HDFS中,以便索引和mapreduce

我的问题是:

a) 在尝试索引三个字段时,是否可以映射索引映射索引映射索引缩减?如果没有,如何建立索引?如有可能,按顺序进行解释(例如索引映射减少)

b) 从提取到储存,正确的工具是什么

c) Hadoop可以用于简单的搜索,还是必须使用lucene/solr等其他工具


d) 在进行MapReduce阶段之前,数据必须转换为结构化形式,例如使用PDI吗?

如果您希望索引hadoop中存储的一些数据,那么Cloudera Search是您的最佳使用案例。链接:


我目前在Goibibo.com上使用它来索引日志数据。您可以在map reduce模式下使用它对数据进行实时索引。在内部,它使用Solr进行索引,并完全适合您的用例。您还可以通过Hue公开索引的集合。

我建议使用弹性搜索或solar为大数据编制索引

大话题,没有“简单”的答案。建议:Google:Hadoop开源分析这些文件不存储在Hadoop中。我正在尝试从平面文件传输到hadoop。最好的工具是什么?另外,我描述的索引方法是否可行?因为您正在将文件传输到hadoop,所以您可以动态(使用Flume)索引文件,也可以在mapreduce模式下索引文件。只要阅读一下cloudera search,您就会知道。非常感谢您提供的这些信息。我认为cloudera搜索正是我所需要的,但我想澄清一些事情;安装Cloudera search后,我是否需要安装其他工具来完成任务?我是否需要再次安装hadoop、ETL工具、solr等?另外,你能告诉我这些工具中的每一个都将扮演什么角色吗?从源文件中提取数据到处理后搜索。看看你是否安装了Hadoop,你不需要任何额外的东西。如果要实时索引日志,则需要Flume,否则不需要它。现在,色调是另一个工具,如果您想通过UI公开它,它会很有用。同样,这不是必须的。