Hadoop 大数据分析仿真

Hadoop 大数据分析仿真,hadoop,cloud,data-analysis,Hadoop,Cloud,Data Analysis,有史以来的第一篇帖子,我们开始吧!(感谢您抽出时间阅读!) 我目前正在大学学习,从事一项研究项目,研究不同的硬件(特别是ram磁盘和硬盘)如何影响大数据分析的速度。我知道如何设置各种硬件和所有这些,但是,我以前没有大数据分析的经验,在寻找了几天之后,我没有找到任何答案(即使在这里)。我需要任何能够模拟大数据分析的软件——我读过Hadoop,但不知道从哪里开始——而且似乎即使有它也没有模拟。我将如何着手让软件与数据一起进行分析?具体来说,我可以作为一个控制组运行,然后再次使用存储在ram磁盘上的数

有史以来的第一篇帖子,我们开始吧!(感谢您抽出时间阅读!)

我目前正在大学学习,从事一项研究项目,研究不同的硬件(特别是ram磁盘和硬盘)如何影响大数据分析的速度。我知道如何设置各种硬件和所有这些,但是,我以前没有大数据分析的经验,在寻找了几天之后,我没有找到任何答案(即使在这里)。我需要任何能够模拟大数据分析的软件——我读过Hadoop,但不知道从哪里开始——而且似乎即使有它也没有模拟。我将如何着手让软件与数据一起进行分析?具体来说,我可以作为一个控制组运行,然后再次使用存储在ram磁盘上的数据来查看性能是否有所提高

在这里,我真的感到很困惑,不知道从哪里开始,所以欢迎任何帮助或提示。多谢各位


为了澄清这一点,我希望从一个非常小规模的数据库开始,但我的学校也有资源来建立一个非常大的驱动器,以便能够进行测试。

市场上有许多DB解决方案。 然而,大数据数据库的设计必须能够处理这些特定数据。大数据的特征概括为3V,即数据量、速度和多样性。 大数据是以TB或更多为单位的大量数据。这是大数据最基本的特征,这意味着仍有大量数据通过多条路径生成。 此外,必须根据用户需求实时收集和分析大量数据。大数据的多样性有多种形式。也就是说,它包括所有类型的数据,例如规则、半规则和不规则数据。除了书籍、杂志、病历、视频和音频等传统的指示数据外,它还包括具有位置信息的数据。 是一款可以尝试的大数据软件。该数据库网站还提供了用户手册和入门页面,用户可以方便地按照说明进行操作。祝你好运

这是离题的。试着把软件和数据放在一起——如果你只是搜索,就会发现很多开源数据集。还有一本“Hadoop,权威指南”的书,它使用了其中的一些来进行分析。注意:如果您想使用内存,您很可能会将ApacheSpark与ApacheIgnite一起使用。祝你好运