Apache spark PySpark上超出了GC开销限制_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark上超出了GC开销限制_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark PySpark上超出了GC开销限制

apache-spark pyspark

Apache spark PySpark上超出了GC开销限制,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我目前正在使用PySpark处理大量日志，并且我的集群上面临一些内存问题这给我带来了以下错误： HTTP错误500 访问/jobs/时出现问题。原因: 由以下原因导致的服务器错误： java.lang.OutOfMemoryError:超出GC开销限制以下是我当前的配置： spark.driver.cores 3 spark.driver.memory 6g spark.executor.cores 3 spark.executor.instances 20 spark.exe

我目前正在使用PySpark处理大量日志，并且我的集群上面临一些内存问题

这给我带来了以下错误：

HTTP错误500

访问/jobs/时出现问题。原因:

由以下原因导致的服务器错误：

java.lang.OutOfMemoryError:超出GC开销限制

以下是我当前的配置：

spark.driver.cores  3
spark.driver.memory 6g
spark.executor.cores    3
spark.executor.instances    20
spark.executor.memory   6g
spark.yarn.executor.memoryOverhead  2g

首先，我不会在spark工作中缓存/保留任何内容

我读到过，它可能是一种记忆过剩的东西，这就是我增加它的原因。但这似乎还不够。我还读到，垃圾收集器也可能有问题。这是我这里的主要问题，当你必须处理许多不同的数据库时，最佳实践是什么
我必须做大量的加入，我正在用SparkSql做这件事，并且我正在创建许多临时视图。这是一个坏习惯吗？做一些巨大的SQL请求并在一个SQL请求中加入10个连接会更好吗？它会降低代码的可读性，但它能帮助解决我的问题吗

谢谢，
嗯，我想我已经解决了我的问题。这是关于广播的事
我认为由于我的连接非常大，它们需要相当长的时间，因此我禁用了广播：

config("spark.sql.autoBroadcastJoinThreshold", "-1")
问题似乎已经解决了

谢谢，
您使用的spark版本是什么？您是否能够验证传递给spark的驱动程序JVM的
-Xmx
参数值？您是否尝试使用visualvm连接到驱动程序以检查哪些对象占用了这么多内存？请确保您的
spark.memory.fraction=0.6
。如果该值高于遇到垃圾收集错误的值，请参阅

[pyspark]相关文章推荐

Pyspark Spark中两种不同方法的比较：还原和排序 pyspark

应用pyspark ALS时出现堆栈溢出错误'；s"；推荐俄罗斯产品“；（尽管可用的群集内存大于300GB） pyspark

是否将PySpark dataframe转换为线性回归所需的训练数据格式？ pyspark

PySpark：错误“；无法pickle标准输入“；关于函数映射 pyspark

Pyspark 如何将url链接添加到jupyter笔记本上graphviz中的节点 pyspark jupyter-notebook graphviz

Pyspark 使用SQL从两个数据帧提取数据时出错 pyspark

Pyspark 无法转换DynamicFrame.toDF（）获取异常 pyspark

Pyspark Spark dataframe date_在不工作时添加带有大小写的函数 pyspark

pyspark是否将列的最大值保存到参数中？ pyspark

基于PySpark中另一个数据帧的列值更新列中的值 pyspark

将气流变量导入PySpark pyspark airflow

Pyspark 测绘及；df中的键还原 pyspark

jupyter中的pyspark配置是否适用于所有笔记本电脑组合或每个笔记本电脑 pyspark

Pyspark 如何在pysark中将4/23/19这样的字符串解析为时间戳 pyspark

Pyspark 派斯帕克；检查列是否包含列表元素之一的UDF pyspark

Pyspark从列级别内的时间戳获取时间差 pyspark

pyspark：在同一列（使用数组）上使用多个UDF函数时出现意外行为 pyspark

如何划分数据帧行'；将每个值按行'；s pyspark中的总和（数据规范化）？ pyspark

如何在pyspark中创建行并在给定的df中递增 pyspark

随机文章推荐

[apache spark]相关推荐

Apache spark Spark:EOFEException在从HDFS读取时发生
Apache Spark

Apache spark PySpark中MatrixFactoryizationModel的缓存因子
Apache Spark Pyspark

Apache spark Spark是否支持从主节点或工作节点访问数据？
Apache Spark

Apache spark Sparks RDD.randomSplit实际上是如何分割RDD的
Apache Spark

Apache spark 将Bluemix虚拟传感器连接到Spark服务实例
Apache Spark Ibm Cloud

Apache spark PySpark：有没有一种方法可以在一个操作中完成.fit（）和.transform（）？
Apache Spark Pyspark

Apache spark 这是一个异常缓慢的数据帧连接。为什么？
Apache Spark

Apache spark 杀死闲置的火花弹和阿帕奇齐柏林飞艇
Apache Spark

Apache spark Apache Spark流错误：在删除BlockRDD的块后尝试使用它
Apache Spark

Apache spark 如何使用Python确定Apache Spark RDD中的范围重叠
Apache Spark Pyspark

Apache spark 从拼花地板加载数据
Apache Spark

Apache spark 查询以从spark中具有相同列名的两个表中创建下拉列表
Apache Spark

Apache spark IgniteQueue获取-SparkException:任务不可序列化
Apache Spark Ignite

Apache spark 无法在ZooKeeper中使用SASL对Spark的HBase客户端进行身份验证
Apache Spark Pyspark Hbase Apache Zookeeper

Apache spark 为什么单个结构化查询每批运行多个SQL查询？
Apache Spark

Apache spark 将具有结构数组的列展开为新列
Apache Spark Pyspark

Apache spark 无法通过Spark程序将文件写入Google cloud cluster
Apache Spark Hadoop Google Cloud Platform Google Compute Engine

Apache spark 将数据帧写入avro格式时出错
Apache Spark

Apache spark 写入HDFS需要很长时间
Apache Spark

Apache spark 如何将原木从纱线容器转发到s3？
Apache Spark Amazon S3

Apache spark 火花输出镶木地板问题
Apache Spark

Apache spark Spark窗口上的统计模式
Apache Spark Pyspark

Apache spark Spark Cassandra连接器：如何更改集合写入行为
Apache Spark Cassandra

Apache spark 将numpy中的不同数组添加到数据帧的每一行
Apache Spark Pyspark

Apache spark 如何修复'；NoClassDefFoundError:io/fabric8/kubernetes/api/model/apps/Deployment'；
Apache Spark Kubernetes

Apache spark 什么'；编码器和CatalystSerde之间的关系
Apache Spark

Apache spark 如何在spark数据框中插入一个新列，该列的值从m到n，其中m和n可以在Pyspark中独立选择？
Apache Spark Pyspark

Apache spark Spark：没有分配工作
Apache Spark

Apache spark pyspark-TypeError:count（）正好接受1个参数（给定2个）
Apache Spark Pyspark

Apache spark 火花流动态间歇
Apache Spark

Tags

Ssas Hybris D Syntax Symfony1 Io Powerbi Autocomplete Ipad Xslt Sequelize.js .net Core Swift3 Twig Graphql Caching Debian Https Path Internationalization Github Google Api Drop Down Menu Linq To Sql Google Sheets Dependency Injection Websocket Jvm Magento2 Indexing Orm Apache Camel Gatsby Ms Office Windows Services Drupal 7 Mariadb Spring Boot Processing Angular6 Stream Google Chrome Codeigniter Qml Jar Filter Notepad++ Plot Coldfusion Sparql Ajax Hazelcast Vb6 Meteor Dojo Module Ios6 Android Ndk Neural Network Karate Navigation Arm Heroku Teamcity Postgresql Ibm Mobilefirst Dask Yocto Migration Xamarin.forms Input Java 8 Identityserver4 Mapreduce Grails Tensorflow Time Complexity Amazon Redshift Swift Documentation Instagram Common Lisp C++ Bazel Boost Google Plus String Monitoring Reference Gdb Amp Html Filesystems Firebase Model View Controller Listview Jdbc Windows Quickbooks Awk Sas Outlook Routing Variables Oracle10g Multithreading Class Camera Smtp Openlayers Google App Maker Encryption Gmail Firefox Resharper Cors Google Drive Api Visual Studio 2013 Ios8 Visual Studio 2008 Pentaho Collections If Statement Statistics Makefile Cucumber Cookies Latex Blockchain Visual Studio 2015 Exchange Server Mediawiki Jquery Django Mpi Sql Server 2005 Ethereum C# 4.0 Google Compute Engine Jetty Jira Tfs Atom Editor Python Elm Graphics Gcc Data Binding Actions On Google Drools Javascript Python 2.7 Jquery Plugins Solr Compilation Yii Erlang Random Fiware Cron Editor Teradata Text Azure Sql Database Sql Safari Phpunit Umbraco Internet Explorer Azure Active Directory Stanford Nlp Office Js Robotframework Apache Storm Devexpress Xaml Optimization Firefox Addon Domain Driven Design Generics Ios7 Gitlab Apache2 Imagemagick Google Colaboratory Highcharts Aurelia Isabelle Virtualbox Asp.net Log4net Unity3d Go Postman Pine Script Log4j Protractor Gridview Macos Drupal 6 Weblogic Eclipse Rcp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网