Java 如何设置ApacheSpark以拥有更多的内核(从属)?

Java 如何设置ApacheSpark以拥有更多的内核(从属)?,java,apache-spark,Java,Apache Spark,我需要用ApacheSpark(JavaAPI)运行一个大数据集 我不太明白如何设置一个主人和一些奴隶。这就是我对环境的看法: SparkSession spark = SparkSession.builder() .appName("LOG-16k 32 cores-persist") //.config("spark.executor.heartbeatInterval", "10000s") .

我需要用ApacheSpark(JavaAPI)运行一个大数据集

我不太明白如何设置一个主人和一些奴隶。这就是我对环境的看法:

SparkSession spark = SparkSession.builder()
                .appName("LOG-16k 32 cores-persist")
                //.config("spark.executor.heartbeatInterval", "10000s")
                .config("spark.sql.warehouse.dir", "file:///c:/tmp/")
                .config("spark.eventLog.enabled", "true")
                .config("spark.eventLog.dir", "file:/home/XXX/temp/spark-events")
                .config("spark.history.fs.logDirectory", "file:/home/XXX/temp/spark-events")
                //.config("spark.debug.maxToStringFields", 100000)
                .master("local[32]").getOrCreate();

显然,要获得任何分布式处理,您将需要不止一台机器

您应该仔细阅读Spark文档,了解如何设置以下各项之一

  • Spark单机版
  • 阿帕奇纱线
  • 阿帕奇Mesos
  • 库伯内特斯
或者您可以找到社区提供的调度器,如Hashicorp Nomad-

您还需要使用分布式文件系统,如HDFS或Ceph,因为如果您确实有一个大型数据集,那么从一个磁盘读取它将是您的瓶颈



如果您只是想进行日志分析,Apache Hive/Presto/Drill或Elasticsearch可能比Spark更为理想

您在本地计算机(无集群)上运行此功能,但想要从机?你应该为此设置一个群集。我有我的电脑和一个外部服务器,但我在使用它们时遇到了问题。我这样问是因为我真的不知道,所以我不能在IDE中这样做?我需要在候机楼做吗?是的,它是一个大数据集(200万个变量),您的IDE不受限制。什么类型的问题???200万不是一个数量。这只是一个数字。200万字节甚至不是2MB。即使200 gb的数据仍然可以在不到一小时的时间内在一台机器上快速处理,如果适当地并行化,数据集是150 gb。我被要求在一台机器上使用Spark,现在我需要在集群中使用它。我将检查您给我的选项。我想我的问题是连接到se服务器,我不是程序员,所以我试着遵循教程,但我总是无法使用终端和IDEOkay,然后创建一个新的帖子,包括你采取的所有步骤和错误,也许有人可以帮上忙。注意:一个群集仍然是有效群集。。。听起来您的问题是安装和配置调度程序。我看过很多关于Spark standalone的教程,我用一个集群独立运行它(它可以工作),我想要多个集群,我尝试了这方面的教程,但没有成功。我将创建另一个帖子。