BOINC与Hadoop/Spark/etc的区别

BOINC与Hadoop/Spark/etc的区别,hadoop,distributed-computing,boinc,bigdata,Hadoop,Distributed Computing,Boinc,Bigdata,BOINC和BOINC有什么区别 与通用Hadoop/Spark等大数据框架相比?它们似乎都是分布式计算框架——有没有地方可以让我读到它们之间的区别,特别是BOINC 欧盟的大型强子对撞机似乎正在使用BOINC,为什么不使用Hadoop 谢谢 BOINC是一种可以利用计算机上未使用的CPU和GPU周期进行科学计算的软件 严格来说,BOINC是一个单一的应用程序,它使用未使用的计算周期实现网格计算 ApacheHadoop是一个开源软件框架,用于在由商品硬件构建的计算机集群上对非常大的数据集进行分

BOINC和BOINC有什么区别

与通用Hadoop/Spark等大数据框架相比?它们似乎都是分布式计算框架——有没有地方可以让我读到它们之间的区别,特别是BOINC

欧盟的大型强子对撞机似乎正在使用BOINC,为什么不使用Hadoop

谢谢

BOINC是一种可以利用计算机上未使用的CPU和GPU周期进行科学计算的软件

严格来说,BOINC是一个单一的应用程序,它使用未使用的计算周期实现网格计算

ApacheHadoop是一个开源软件框架,用于在由商品硬件构建的计算机集群上对非常大的数据集进行分布式存储和分布式处理。 Hadoop中的所有模块的设计都基于一个基本假设,即硬件故障是常见的,应该由框架自动处理

ApacheHadoop的核心由一个名为Hadoop分布式文件系统HDFS的存储部分和一个名为MapReduce的处理部分组成

对框架及其双重功能的强调

在这里,您可以看到Hadoop是一个框架,也称为一个生态系统,它同时具有存储和计算功能。Cloudera和Hortonworks等Hadoop供应商将附加功能捆绑到Hive、Hbase、Pig、Spark等中,以及一些安全/审计工具

此外,这两个集群处理硬件故障的方式不同。如果BOINC节点死亡,则没有容错能力;这些资源已经失去。在Hadoop中,数据被复制,任务在最终失败之前被重新运行一定次数,但只要框架中内置的日志服务正在运行,这些步骤都是可跟踪的

欧盟的大型强子对撞机似乎正在使用BOINC,为什么不使用Hadoop

因为BOINC提供了一个世界上任何人都可以安装的软件来加入集群,所以他们几乎可以免费从任何地方获得大范围的计算能力

他们可能在内部使用Hadoop来做一些存储,或者Spark来做额外的计算,但批量购买商品硬件并构建/维护集群似乎成本过高

BOINC是一种可以利用计算机上未使用的CPU和GPU周期进行科学计算的软件

严格来说,BOINC是一个单一的应用程序,它使用未使用的计算周期实现网格计算

ApacheHadoop是一个开源软件框架,用于在由商品硬件构建的计算机集群上对非常大的数据集进行分布式存储和分布式处理。 Hadoop中的所有模块的设计都基于一个基本假设,即硬件故障是常见的,应该由框架自动处理

ApacheHadoop的核心由一个名为Hadoop分布式文件系统HDFS的存储部分和一个名为MapReduce的处理部分组成

对框架及其双重功能的强调

在这里,您可以看到Hadoop是一个框架,也称为一个生态系统,它同时具有存储和计算功能。Cloudera和Hortonworks等Hadoop供应商将附加功能捆绑到Hive、Hbase、Pig、Spark等中,以及一些安全/审计工具

此外,这两个集群处理硬件故障的方式不同。如果BOINC节点死亡,则没有容错能力;这些资源已经失去。在Hadoop中,数据被复制,任务在最终失败之前被重新运行一定次数,但只要框架中内置的日志服务正在运行,这些步骤都是可跟踪的

欧盟的大型强子对撞机似乎正在使用BOINC,为什么不使用Hadoop

因为BOINC提供了一个世界上任何人都可以安装的软件来加入集群,所以他们几乎可以免费从任何地方获得大范围的计算能力


他们可能在内部使用Hadoop进行一些存储,或者Spark进行额外的计算,但批量购买商品硬件并构建/维护集群似乎成本过高。

BOINC和Hadoop之间的相似之处在于,他们利用了一个大问题可以在许多方面得到解决。两者都与跨多台计算机(而不是应用程序)分发数据密切相关

区别在于所有参与机器之间的同步程度。使用Hadoop,同步非常紧密,您希望在某个时候从所有机器收集所有数据,然后进行最终分析。实际上,您在等待最后一个任务,直到完成任务的最后一部分,才会返回任何内容

对于BOINC,根本没有同步性。你有成千上万的工作要做。由项目维护人员运行的BOINC服务器端协调将作业交付给志愿者运行的BOINC客户端

对于BOINC,p
项目维护人员根本无法控制客户。如果客户端未返回结果,则工作单元将再次发送到其他位置。使用Hadoop,项目维护人员可以访问整个集群。在BOINC中,应用程序是跨不同平台提供的,因为完全不确定用户提供什么平台。使用Hadoop,一切都是定义良好的,通常都是非常同质的。BOINC最大的项目有数万名固定志愿者,Hadoop有你能买得起或租得起的东西。

BOINC和Hadoop之间的相似之处在于,他们利用了一个可以在许多地方解决的大问题。两者都与跨多台计算机(而不是应用程序)分发数据密切相关

区别在于所有参与机器之间的同步程度。使用Hadoop,同步非常紧密,您希望在某个时候从所有机器收集所有数据,然后进行最终分析。实际上,您在等待最后一个任务,直到完成任务的最后一部分,才会返回任何内容

对于BOINC,根本没有同步性。你有成千上万的工作要做。由项目维护人员运行的BOINC服务器端协调将作业交付给志愿者运行的BOINC客户端


在BOINC中,项目维护人员根本无法控制客户。如果客户端未返回结果,则工作单元将再次发送到其他位置。使用Hadoop,项目维护人员可以访问整个集群。在BOINC中,应用程序是跨不同平台提供的,因为完全不确定用户提供什么平台。使用Hadoop,一切都是定义良好的,通常都是非常同质的。BOINC最大的项目有数万名普通志愿者,Hadoop有你能买得起或租得起的东西。

CERN实际上利用了Hadoop+Spark。示例:BOINC和Hadoop/Spark/其他分布式计算平台之间最大的区别在于谁来支付账单。BOINC拥有大量的外部投资资本支出+外部融资OPEX co$t$。拥有这种几乎免费的计算能力是一个诱人的话题。从法律上讲,有一个重要的步骤——一个人是否明确表达了他/她的意愿来赞助这种赞助计算。BOINC在这一点上是明确和合乎道德的,但这一点并不普遍适用。最好检查您的Process Explorer,看看您的GPU引擎上可能加载了哪些令人惊讶的任务,等等CERN实际上利用了Hadoop+Spark。示例:BOINC和Hadoop/Spark/其他分布式计算平台之间最大的区别在于谁来支付账单。BOINC拥有大量的外部投资资本支出+外部融资OPEX co$t$。拥有这种几乎免费的计算能力是一个诱人的话题。从法律上讲,有一个重要的步骤——一个人是否明确表达了他/她的意愿来赞助这种赞助计算。BOINC在这一点上是明确和合乎道德的,但这一点并不普遍适用。最好检查您的Process Explorer,看看您的GPU引擎可能加载了哪些令人惊讶的任务等