Java Spark单机版

Java Spark单机版,java,python,scala,apache-spark,Java,Python,Scala,Apache Spark,我的机器上有4个CPU的Ubuntu 14.04(nprocget 4 back)。 安装并执行(本地)后,我可以自行定义不同数量的从机。例如,我想要4个奴隶(工人)。在执行了这个数量的从机之后,我有了下一个spark独立屏幕: 如果一个uinique worker已经有4个内核(我认为1个内核就是1个cpu),我怎么可能拥有corse 16(橙色区域)和11GB内存的总数?如果我有四个奴隶而不是一个奴隶,那么什么是avantage?也许,如果我在本地执行它,我没有任何(它也会更慢),但是如果

我的机器上有4个CPU的Ubuntu 14.04(
nproc
get 4 back)。 安装并执行(本地)后,我可以自行定义不同数量的从机。例如,我想要4个奴隶(工人)。在执行了这个数量的从机之后,我有了下一个spark独立屏幕:


如果一个uinique worker已经有4个内核(我认为1个内核就是1个cpu),我怎么可能拥有corse 16(橙色区域)和11GB内存的总数?如果我有四个奴隶而不是一个奴隶,那么什么是avantage?也许,如果我在本地执行它,我没有任何(它也会更慢),但是如果我有一个hadoop集群,核心应该如何共享,以及如何提高程序执行的速度?还有一个问题,如果我启动某个应用程序(scala、python或java),第一个应用程序正在运行,那么其他2或3个应用程序应该处于等待模式。是否可以并行运行所有应用程序

您在这里误解了几件事:

独立的

这并不表示“本地”。独立模式是应用程序主内置Spark,可由或替代。可以使用任意数量的节点。实际上,您只能在给定数量的X个线程上本地运行,例如,通过运行
/bin/sparkshell--master local[X]
命令

核心/内存

这些数字反映了集群中的资源总量,四舍五入。这里,如果我们计算一下,你有
4*4CPU=16CPU
,和
4*2.7GB~=11GB
的内存

资源管理

如果我有一个hadoop集群,那么核心应该如何共享

Hadoop集群不同于Spark集群。有几种方法可以将两者结合起来,但大多数情况下,Hadoop与Spark结合使用的部分是HDFS,即分布式文件系统

根据您与Spark一起使用的应用程序主机,内核的管理方式将有所不同:

  • 在节点上使用节点管理器来启动容器,您可以在其中启动Spark的执行器(一个执行器=一个jvm)

  • Spark Standalone使用workers作为启动执行器的网关

  • Mesos直接发射执行器

日程安排

Hadoop和Spark使用了一种称为的技术,它基本上依赖于应用程序可以决定拒绝工作人员提供的服务这一原则来放置它的任务之一,并希望以后能够在数据位置方面收到更好的服务

如何提高程序执行的速度

这是一个复杂的问题,如果不了解您的基础架构、输入数据和应用程序,就无法回答。以下是一些会影响性能的参数:

  • 可用内存量(主要用于缓存经常使用的RDD)
  • 对数据/RDD使用压缩
  • 应用程序配置
是否可以并行运行所有应用程序


默认情况下,独立主机对其应用程序使用FIFO调度程序,但您可以在应用程序内设置公平调度程序。有关更多详细信息,请参阅。

您在这里误解了几件事:

独立的

这并不表示“本地”。独立模式是应用程序主内置Spark,可由或替代。可以使用任意数量的节点。实际上,您只能在给定数量的X个线程上本地运行,例如,通过运行
/bin/sparkshell--master local[X]
命令

核心/内存

这些数字反映了集群中的资源总量,四舍五入。这里,如果我们计算一下,你有
4*4CPU=16CPU
,和
4*2.7GB~=11GB
的内存

资源管理

如果我有一个hadoop集群,那么核心应该如何共享

Hadoop集群不同于Spark集群。有几种方法可以将两者结合起来,但大多数情况下,Hadoop与Spark结合使用的部分是HDFS,即分布式文件系统

根据您与Spark一起使用的应用程序主机,内核的管理方式将有所不同:

  • 在节点上使用节点管理器来启动容器,您可以在其中启动Spark的执行器(一个执行器=一个jvm)

  • Spark Standalone使用workers作为启动执行器的网关

  • Mesos直接发射执行器

日程安排

Hadoop和Spark使用了一种称为的技术,它基本上依赖于应用程序可以决定拒绝工作人员提供的服务这一原则来放置它的任务之一,并希望以后能够在数据位置方面收到更好的服务

如何提高程序执行的速度

这是一个复杂的问题,如果不了解您的基础架构、输入数据和应用程序,就无法回答。以下是一些会影响性能的参数:

  • 可用内存量(主要用于缓存经常使用的RDD)
  • 对数据/RDD使用压缩
  • 应用程序配置
是否可以并行运行所有应用程序


默认情况下,独立主机对其应用程序使用FIFO调度程序,但您可以在应用程序内设置公平调度程序。有关更多详细信息,请参阅。

您在这里误解了几件事:

独立的

这并不表示“本地”。独立模式是