Hadoop是数据服务器的集合还是管理数据库的软件?

Hadoop是数据服务器的集合还是管理数据库的软件?,hadoop,Hadoop,我看了数百个视频和数百篇文章。但它们都这么复杂?为什么人们在分解之前不能清楚地介绍什么是东西?Hadoop到底是什么?我知道它是一种文件分发系统,它有一些很酷的特性,比如高性能、HDFS、Thread、MapReduce、Hadoop Common bla等等。请有人告诉我是什么?它是像Visual Studio、Anaconda Navigator、Android Studio之类的软件吗?或者它是一家拥有数千台数据服务器的大公司,您可以在那里上传公司的数据并对其进行完美管理?为什么YouTu

我看了数百个视频和数百篇文章。但它们都这么复杂?为什么人们在分解之前不能清楚地介绍什么是东西?Hadoop到底是什么?我知道它是一种文件分发系统,它有一些很酷的特性,比如高性能、HDFS、Thread、MapReduce、Hadoop Common bla等等。请有人告诉我是什么?它是像Visual Studio、Anaconda Navigator、Android Studio之类的软件吗?或者它是一家拥有数千台数据服务器的大公司,您可以在那里上传公司的数据并对其进行完美管理?为什么YouTube上的这些视频说Hadoop是存储高效的?这是否意味着您使用Hadoop的数据服务器,它们可以高效地保存您的数据?我绝对相信,当他们在YouTube上观看这些视频时,我不是唯一一个问这些问题的人。

提前谢谢

Hadoop是一个生态系统,意味着由多个可以在分布式模式下协同工作的软件组成

Hadoop内部作为服务提供的三个主要软件是:HDFS、Thread、MapReduce

HDFS是一个分布式文件系统。这意味着HDFS是一个类似于PC文件系统(NTFS、FAT32、EXT4等)的文件系统。文件系统的主要目标是管理文件。文件系统中的每个文件都由块组成(考虑将文件划分为块)。我们的本地文件系统将这些块保留在一台机器上,但HDFS将它们拆分(并分发)到多台机器上

纱线是一个资源管理器,就像我们操作系统中的资源管理器一样,但它管理来自多台机器的资源。当您在PC内运行应用程序(即记事本)时,操作系统会为您的应用程序提供CPU核心(需要时)和内存。在您提交应用程序时,它会在所有机器上为您的应用程序提供CPU核心(需要时)和内存,并且您的应用程序必须知道如何在分布式模式下工作


MapReduce帮助您在分布式模式下编写程序,而您不需要知道如何在分布式模式下编写应用程序。MapReduce有点像一种编程语言加上一个编译器,Thread可以知道如何运行它的程序。

有一天谷歌决定推出一种分布式文件服务器, 并将其命名为谷歌文件系统,或GFS。 这一想法在2003年发表了一篇论文:[https://static.googleusercontent.com/media/research.google.com/en/ir/archive/gfs-sosp2003.pdf]

与此同时,ApacheLucene的创建者Doug Cutting正在开发ApacheNutch,本文帮助他们实现了一个很好的分布式文件系统,名为NDFS或Nutch分布式文件系统

而Nutch能够将文件拆分为多个块,并将其存储在多个服务器中,然后进行复制以保持数据的可靠性。 但是这些数据需要处理,您只需在一台机器上获取TB的数据并进行处理。 2004年,谷歌又提出了一个伟大的想法,名为MapReduce。 [http://research.google.com/archive/mapreduce.html]

使用Map Reduce,您可以将数据处理代码放在数据块附近,本地处理它们(映射阶段),然后收集结果并将其汇总(减少阶段)

现在Nutch同时拥有NDF和map reduce

引用Tom White的Hadoop权威指南:

NDFS和MapReduce Nutch中的实现适用于搜索以外的领域, 2006年2月,他们离开了Nutch,成立了一个独立的 Lucene的子项目称为Hadoop

这是hadoop的故事。 但现在,其他工具已经出现,与Hadoop协同工作 比如ApacheHive,它帮助我们在Hadoop文件系统(现在称为HDFS)上对大型分布式数据运行类似SQL的查询。 或者ApachePig,它使用高级语言使用MapReduce框架对Hadoop存储的文件运行复杂分析。 还有很多其他工具,如Hbase、Spark、Flume、Sqoop、Crunch等。 我们不叫他们Hadoop!但他们生活在一个以Hadoop为中心的生态系统中。 所以我们称这个社区为Hadoop生态系统

如果你开始阅读汤姆·怀特的《Hadoop权威指南》一书会更好 而不是阅读多篇博客文章和YouTube视频