Dataframe 删除HDFS文件中的数据并调整Spark_Dataframe_Apache Spark_Hadoop_Pyspark_Hdfs - Fatal编程技术网

Dataframe 删除HDFS文件中的数据并调整Spark

dataframe apache-spark hadoop pyspark

Dataframe 删除HDFS文件中的数据并调整Spark,dataframe,apache-spark,hadoop,pyspark,hdfs,Dataframe,Apache Spark,Hadoop,Pyspark,Hdfs,我有一个脚本，可以删除存储在HDFS中的txt文件中的行。数据按天分区，每个分区的数据小于10MB 代码将所有数据读入一个数据帧（DF1），保持跟踪或src数据，因此我可以在最后重新写入数据。然后基于另一个单列数据帧（DF2），删除包含DF2上任何字符串的所有行虽然代码需要很长时间才能完成，但数据量不大 Spark应如何配置以运行？更多的执行器、内核、内存？或者我可以用另一种方式处理数据帧首先，对于这种大小的数据，是否可以不使用Spark？而是读入原始资源并在VM/容器上运行它们我们需

我有一个脚本，可以删除存储在HDFS中的txt文件中的行。数据按天分区，每个分区的数据小于
10MB
代码将所有数据读入一个数据帧（
DF1
），保持跟踪或src数据，因此我可以在最后重新写入数据。然后基于另一个单列数据帧（
DF2
），删除包含
DF2
上任何字符串的所有行
虽然代码需要很长时间才能完成，但数据量不大
Spark应如何配置以运行？更多的执行器、内核、内存？
或者我可以用另一种方式处理数据帧
首先，对于这种大小的数据，是否可以不使用Spark？而是读入原始资源并在VM/容器上运行它们
我们需要了解更多关于您现在使用的配置的信息，以提供建议：您当前使用了多少内核？是否接近最大利用率

此外，代码示例对诊断问题有很大帮助
广播DF2并运行相同的进程。这将提高性能
为了进一步减少运行时间，可以增加执行器的数量（--num executor）。由于每个分区只有10Mb左右，我建议您为每个执行器使用最少的资源（--executor memory 1G--executor cores 1）

这些是可以立即用于减少运行时间的少数几个选项。通过进一步分析数据和使用的序列化，您可以尝试进一步优化它。
如果两个数据帧具有行ID，则执行广播连接、过滤和删除以获得最佳性能

[apache spark]相关文章推荐

Apache spark SparkR：在临时文件夹上创建了大量文件 apache-spark

Apache spark 如何将齐柏林飞艇与源代码构建的Spark 1.5连接起来？ apache-spark

Apache spark 使用Google云存储将Spark RDD保存为文本文件 apache-spark google-cloud-storage

Apache spark 本地Kafka应用程序失败，错误为：NoSuchMethodError:createEphemeral apache-spark apache-kafka apache-zookeeper

Apache spark 无法在pyspark中设置洗牌分区数 apache-spark pyspark

Apache spark 数据集上的createOrReplaceTempView（viewName）和cache（）之间有什么区别 apache-spark

Apache spark Spark SQL流与Kafka和Cassandra集成。强迫卡桑德拉根据需要阅读 apache-spark cassandra

Apache spark 如何根据pyspark中的条件组合数据帧中的行 apache-spark dataframe pyspark

Apache spark 如何根据存储在Cassandra中的结果使用spark为多家公司执行累积平均值？ apache-spark

Apache spark 如何有效地计算数据帧的行数？ apache-spark pyspark

Apache spark 重命名Spark作业中导出的文件 apache-spark amazon-s3

Apache spark 非联接列上带条件的Spark联接 apache-spark

Apache spark spark提交：无法获取驱动程序状态 apache-spark

Apache spark 将多个列映射到Spark数据帧中的单个键 apache-spark

Apache spark 以编程方式链接增量流引发AnalysisException apache-spark

Apache spark 替换pyspark数据帧中的特殊字符？ apache-spark pyspark

Apache spark 如何在spark3.0.0中使用tranform API？ apache-spark pyspark

Apache spark 将字符串转换为单独的行，然后转换为Pyspark数据帧 apache-spark pyspark

Apache spark 提高SageMaker中Spark PipelineModel的性能 apache-spark

Apache spark 将Spark数据帧转换为表：它是同一个数据源吗？ apache-spark

随机文章推荐

Polymer 如何使用聚合物元件的封隔器？ polymer

Polymer 第页没有'；t型延伸聚合物元件 polymer

Polymer 如何处理聚合中的多个环境URL polymer

Polymer 将聚合物设计器输出导入基于Yeoman的聚合物应用程序 polymer

Polymer 点击是双重张贴 polymer

Polymer 如何使用；“隐藏的”；属性 polymer

Polymer 1.0中的条件属性 polymer

Polymer 纸张对话框，带有铁制页面，每页内的纸张对话框可滚动 polymer

Polymer 聚合物&x27；dom if之后的ids索引 polymer

Polymer 如何设置纸张输入中占位符的字体大小？ polymer

Polymer 服务人员：如何建立；新鲜的；每个新部署的网站版本？问题 polymer

Polymer 在准备就绪之前，必须将属性设置为声明式创建的子元素 polymer

Polymer 聚合物从模板dom重复中获得变化 polymer

Polymer 2.x如果服务人员更新可用，则显示toast polymer

Polymer 聚合物初始（无响应） polymer

Polymer 在所有子元素实际更新后运行函数 polymer

[dataframe]相关推荐

julia dataframe-按值列表对列进行子集设置
Dataframe Julia

Dataframe 在Julia Jupyter笔记本中以良好的格式显示整个数据帧
Dataframe Julia Jupyter Notebook

Dataframe 如何在pyspark中使用我的数据框中的两列筛选日期（两个日期之间）
Dataframe Pyspark

Dataframe 将时间序列从CSV加载到数据帧中
Dataframe

Dataframe 计算第一次出现并在列中分配值
Dataframe Pyspark

Dataframe Spark scala:withColumn不是单元的成员
Dataframe Apache Spark

Dataframe PySpark数据帧筛选器列包含多个值
Dataframe Apache Spark Pyspark

Dataframe 在pyspark中以完整模式连接流和静态数据帧
Dataframe Apache Spark Join Pyspark

Dataframe MemoryError:无法为具有形状（1504645182,2,1）和数据类型float64的数组分配22.4 GiB
Dataframe Computer Vision

Dataframe 从包含{}的文本文件创建数据帧
Dataframe

Dataframe 在pyspark中使用过滤条件求和
Dataframe Apache Spark Pyspark

从Julia DataFrame创建加权图
Dataframe Graph Julia

Dataframe 如何使用一条np.where语句将数据框A的3列更新为数据框B的3列
Dataframe Numpy

Dataframe 为PySpark数据帧聚合重命名列
Dataframe Pyspark

Tags

Log4j Powerbi Streaming Acumatica Hive Xamarin Symfony Odoo Twitter Bootstrap Ruby On Rails 3 Openlayers Parameters Error Handling Binary Ionic2 C# 4.0 Webview Flask Cloud Foundry Next.js Datatables Database Internet Explorer 8 Gcc Heroku Smalltalk Google Chrome Zend Framework2 Unit Testing Python Nosql Cmd Google Colaboratory Maps Actionscript Functional Programming Performance Laravel 4 Stripe Payments Uitableview Maven Cakephp Webpack Azure Ad B2c Angularjs Algorithm Yii Discord.js Cron Virtualbox Open Source Apache Pig Pascal Wpf Ios4 Highcharts Magento Elm Antlr4 Postman Ignite Docker Compose Jekyll Actionscript 3 Awk Sencha Touch Abap Math Spring Integration Python Sphinx Iis Data Binding Postgresql Oracle11g Routes Routing Optimization Talend Grid Apache Nifi Javafx Indexing Glsl Apache Zookeeper Drupal 7 Printing Ecmascript 6 Passwords Blazor Jquery Mobile Struts2 Compiler Errors Sql Server 2008 Wso2 Junit Html5 Canvas Netlogo Xcode4 Ansible Xml Arm Racket Chart.js Apache Tfs Jar Silverlight 4.0 Google Calendar Api Leaflet Office365 Excel Sublimetext3 Subsonic Combobox Windows Phone Nativescript Numpy Transactions Notepad++ Asp Classic Prestashop Lisp Crystal Reports Exception Handling Internationalization Apache Spark Ssas Xquery Active Directory Wxpython Sorting Azure Sql Database Doctrine Julia Google App Maker Solr Deep Learning Keras Centos Web Applications Layout Sms Jersey Isabelle Rdf C++11 Here Api Lucene Dictionary Airflow Ajax Pdf Less Tridion Keycloak Localization Nlp Join Sap Caching Gmail Tinymce Path Bison R Verilog Autocomplete Input Bluetooth For Loop Sql Server Glassfish Sugarcrm Com Vector Google Compute Engine Windows Phone 8 Sqlite Hash Inheritance Monitoring Qt4 Kdb Sails.js Zsh Opengl Appium Jmeter Codeigniter Jquery Terminal Checkbox Iis 7 Selenium Webdriver Mfc Hbase Uwp Calendar Text Java 8 Eclipse Plugin

Copyright © 2024. All Rights Reserved by - Fatal编程技术网