Java Hadoop,Mahout实时处理替代方案
我打算在我的项目中将hadoop用作“计算集群”。然而,后来我读到Hadoop并不是为实时系统设计的,因为作业开始时会产生开销。我正在寻找可以用这种方式的解决方案——可以轻松扩展到多台机器但不需要太多输入数据的作业。更重要的是,我想使用机器学习作业,例如,使用实时创建的神经网络Java Hadoop,Mahout实时处理替代方案,java,hadoop,scalability,real-time,mahout,Java,Hadoop,Scalability,Real Time,Mahout,我打算在我的项目中将hadoop用作“计算集群”。然而,后来我读到Hadoop并不是为实时系统设计的,因为作业开始时会产生开销。我正在寻找可以用这种方式的解决方案——可以轻松扩展到多台机器但不需要太多输入数据的作业。更重要的是,我想使用机器学习作业,例如,使用实时创建的神经网络 我可以为此使用哪些库/技术 没错,Hadoop是为批处理类型而设计的 读到这个问题,我想到了Twitter最近开放的Storm框架,它可以被认为是“用于实时处理的Hadoop” Storm使得在计算机集群上编写和扩展复杂
我可以为此使用哪些库/技术 没错,Hadoop是为批处理类型而设计的 读到这个问题,我想到了Twitter最近开放的Storm框架,它可以被认为是“用于实时处理的Hadoop” Storm使得在计算机集群上编写和扩展复杂的实时计算变得很容易,实现了Hadoop用于批处理的实时处理功能。Storm保证每个消息都会被处理。而且速度很快——你可以用一个小集群每秒处理数百万条消息。最棒的是,您可以使用任何编程语言编写Storm拓扑 (发件人:) 然而,我还没有使用过它,所以在实践中我真的不能说太多 推特工程博客帖子:
Github:也可以试试,最初由雅虎发布!现在是Apache孵化器项目。它已经存在了一段时间,当我做概念验证时,我发现它对一些基本的东西很有用。不过,我还没有广泛使用它。鉴于您希望在“秒”范围内获得实时响应,我建议您这样做:
这完全取决于您的实际应用程序。您所尝试的将更适合HPCC,因为它同时具有后端数据处理引擎(相当于Hadoop)和前端实时数据交付引擎,无需通过第三方组件增加复杂性。HPCC的一个优点是,两个组件都使用相同的语言和编程范例进行编程。
查看他们的网址:您是在模型学习阶段还是在模型使用阶段需要实时性?@David Gruzman model usage stage您的实时性要求有多快?秒?分钟?15分钟。。。