Java 如何设置ApacheSpark以拥有更多的内核（从属）？_Java_Apache Spark

Java 如何设置ApacheSpark以拥有更多的内核（从属）？

java apache-spark

Java 如何设置ApacheSpark以拥有更多的内核（从属）？,java,apache-spark,Java,Apache Spark,我需要用ApacheSpark（JavaAPI）运行一个大数据集我不太明白如何设置一个主人和一些奴隶。这就是我对环境的看法： SparkSession spark = SparkSession.builder() .appName("LOG-16k 32 cores-persist") //.config("spark.executor.heartbeatInterval", "10000s") .

我需要用ApacheSpark（JavaAPI）运行一个大数据集

我不太明白如何设置一个主人和一些奴隶。这就是我对环境的看法：

SparkSession spark = SparkSession.builder()
                .appName("LOG-16k 32 cores-persist")
                //.config("spark.executor.heartbeatInterval", "10000s")
                .config("spark.sql.warehouse.dir", "file:///c:/tmp/")
                .config("spark.eventLog.enabled", "true")
                .config("spark.eventLog.dir", "file:/home/XXX/temp/spark-events")
                .config("spark.history.fs.logDirectory", "file:/home/XXX/temp/spark-events")
                //.config("spark.debug.maxToStringFields", 100000)
                .master("local[32]").getOrCreate();

显然，要获得任何分布式处理，您将需要不止一台机器

您应该仔细阅读Spark文档，了解如何设置以下各项之一

Spark单机版
阿帕奇纱线
阿帕奇Mesos
库伯内特斯

或者您可以找到社区提供的调度器，如Hashicorp Nomad-

您还需要使用分布式文件系统，如HDFS或Ceph，因为如果您确实有一个大型数据集，那么从一个磁盘读取它将是您的瓶颈

如果您只是想进行日志分析，Apache Hive/Presto/Drill或Elasticsearch可能比Spark更为理想

您在本地计算机（无集群）上运行此功能，但想要从机？你应该为此设置一个群集。我有我的电脑和一个外部服务器，但我在使用它们时遇到了问题。我这样问是因为我真的不知道，所以我不能在IDE中这样做？我需要在候机楼做吗？是的，它是一个大数据集（200万个变量），您的IDE不受限制。什么类型的问题？？？200万不是一个数量。这只是一个数字。200万字节甚至不是2MB。即使200 gb的数据仍然可以在不到一小时的时间内在一台机器上快速处理，如果适当地并行化，数据集是150 gb。我被要求在一台机器上使用Spark，现在我需要在集群中使用它。我将检查您给我的选项。我想我的问题是连接到se服务器，我不是程序员，所以我试着遵循教程，但我总是无法使用终端和IDEOkay，然后创建一个新的帖子，包括你采取的所有步骤和错误，也许有人可以帮上忙。注意：一个群集仍然是有效群集。。。听起来您的问题是安装和配置调度程序。我看过很多关于Spark standalone的教程，我用一个集群独立运行它（它可以工作），我想要多个集群，我尝试了这方面的教程，但没有成功。我将创建另一个帖子。