实时场景中Hadoop的POC_Hadoop_Real Time_Bigdata_Hadoop Streaming

实时场景中Hadoop的POC

hadoop

实时场景中Hadoop的POC,hadoop,real-time,bigdata,hadoop-streaming,Hadoop,Real Time,Bigdata,Hadoop Streaming,我有点问题。我想了解Hadoop，以及如何使用它实时处理数据流。因此，我想围绕它建立一个有意义的POC，这样当我必须在某个潜在雇主面前证明我对它的了解，或者在我现在的公司介绍它时，我就可以展示它我还想提到的是，我的硬件资源有限。只有我的笔记本电脑和我：）我知道Hadoop的基本知识，并且已经写了2-3个基本的MR-jobs。我想做一些更有意义的事情，或者现实世界中的事情请建议提前感谢。Hadoop是一个面向高吞吐量的框架，适用于批处理过程。如果您对实时处理和分析海量数据集感兴趣，请查看tw

我有点问题。我想了解Hadoop，以及如何使用它实时处理数据流。因此，我想围绕它建立一个有意义的POC，这样当我必须在某个潜在雇主面前证明我对它的了解，或者在我现在的公司介绍它时，我就可以展示它

我还想提到的是，我的硬件资源有限。只有我的笔记本电脑和我：）我知道Hadoop的基本知识，并且已经写了2-3个基本的MR-jobs。我想做一些更有意义的事情，或者现实世界中的事情

请建议

提前感谢。

Hadoop是一个面向高吞吐量的框架，适用于批处理过程。如果您对实时处理和分析海量数据集感兴趣，请查看twitter风暴。

我想指出一些事情

如果您只想用一台笔记本电脑进行POC，那么使用Hadoop没有什么意义

另外，正如其他人所说，Hadoop不是为实时应用程序设计的，因为在运行Map/Reduce作业时会有一些开销

话虽如此，Cloudera发布了与Hadoop生态系统（特别是Hive metastore）协作以实现实时性能的应用程序。请注意，要实现这一点，它不会生成Map/Reduce作业，并且目前处于测试阶段，因此请谨慎使用

所以我真的建议你去黑斑羚，这样你仍然可以使用Hadoop生态系统，但如果你也在考虑替代方案，这里有一些其他框架可以使用：

：由MetaMarkets开放源代码。看起来很有趣，尽管我自己没用过
：没有与HDFS集成，它只处理数据
：与Hadoop集成
当前位置似乎很接近暴风雨

最后，我认为您应该真正分析您的需求，看看使用Hadoop是否是您所需要的，因为它只是在实时空间中开始的。还有其他几个项目可以帮助您实现实时性能

如果你想展示项目的想法，我建议你看看。她的例子如下：

金融/保险
- 根据行业/公司指标、投资组合多样性和货币风险等，将投资机会分类为好或坏
- 根据交易地点和信用卡持有人、日期、金额、购买的物品或服务、交易历史和类似交易，将信用卡交易分为有效或无效
生物/医学
- 蛋白质的结构或功能分类
- 诊断分类，例如基于图像的癌症肿瘤
互联网
- 文献分类与排序
- 恶意软件分类、电子邮件/推特/网络垃圾邮件分类
生产系统（如能源或石化行业）
- 根据传感器的实时和历史数据对情况进行分类和检测（如最佳点或风险情况）

我在找这样的东西-

这些都是定义明确的问题，其中许多是大数据问题。其中一些需要实时处理

但感谢所有回答的人。

我显然有偏见，但我也建议实时查看任何内容。是一个内存数据平台，提供ACID NoSQL数据存储和快速内存MapReduce

如果您想在一个非常有前途的流媒体框架上下手，请尝试BDAS SPARK streaming。注意，此版本尚未发布，但您可以使用github版本（）在笔记本电脑中玩有许多示例可以帮助您开始

与现有框架相比，这也有许多优势， 1.它使您能够在一个堆栈中结合实时和批处理计算 2.它将为您提供一个REPL，您可以在其中以交互方式尝试临时查询。 3.您可以在笔记本电脑上以本地模式运行此功能。还有很多其他的优点，但我相信这三点足以满足您开始工作的需要

您可能必须学习scala才能尝试REPL：-(

要了解更多信息，请查看一个经典的问题，我相信这是最实时的问题。期权交易。这里的关键是关注推特、facebook、youtube上的新闻、趋势，然后确定可能的卖出或卖出的候选人。你将需要一个良好的技能，并与Nutch/Lucene一起精心实施Mahout然后使用趋势数据了解当前情况，系统应推荐下注（选项）。

我认为您可以运行POC，例如，mapreduce中的在线/递归回归算法。但请记住，这只会证明您的“学习规则”有效。可能（从未尝试过）您可以通过告诉还原程序将结果写入可由另一个线程读取的临时文件来实时使用结果

此外，Mahout允许您在几个不同的

序列文件中设置数据库。您可以使用它来模拟在线流，并“在线”对数据集进行分类/群集。您甚至可以在算法开始运行之前将部分数据与其他数据一起复制到文件夹中。
Mahout in Action详细介绍了如何做到这一点
看看下面的数据集是否符合您的口味：
如果您想构建一些实时应用程序，那么我建议您使用用于实时处理的Apache Spark框架，它还支持polyglotAPI（Scala、Java、Python、R）
如果你想申请并显示你使用（Hadoop）MR进行实时分析，我会立即把你的应用程序扔进垃圾箱。如果你想实时地做一些有意义的事，那就使用<代码>暴风雨< /代码>，<代码> Gridgain <代码>或<代码> IMPALA<代码>。如果你是，你可以考虑在云上旋转VM。