如何在加入pyspark数据帧时提高性能_Pyspark_Apache Spark Sql_Query Performance - Fatal编程技术网

如何在加入pyspark数据帧时提高性能

pyspark

如何在加入pyspark数据帧时提高性能,pyspark,apache-spark-sql,query-performance,Pyspark,Apache Spark Sql,Query Performance,我有2个pyspark DataFrames，第一个包含~500.000行，第二个包含~300.000行。我做了2次连接，在第二次连接中，将从第二个数据帧（300.000行）中逐单元格获取，并将其与第一个数据帧（500.000行）中的所有单元格进行比较所以，有一个非常缓慢的连接。我在加入之前广播了数据帧测试1： df_join = df1.join(F.broadcast(df2), df1.String.contains(df2["search.subString"]), "left")

我有2个pyspark DataFrames，第一个包含

~500.000行

，第二个包含

~300.000行

。我做了2次连接，在第二次连接中，将从第二个数据帧（300.000行）中逐单元格获取，并将其与第一个数据帧（500.000行）中的所有单元格进行比较

所以，有一个非常缓慢的连接。我在加入之前广播了数据帧

测试1：

df_join = df1.join(F.broadcast(df2), df1.String.contains(df2["search.subString"]), "left")

这项工作花了好几个小时才完成

测试2：

df_join = F.broadcast(df1).join(F.broadcast(df2), df1.String.contains(df2["search.subString"]), "left")

运行速度比上面的第一个代码慢，所以性能很差

我试图在加入之前缓存数据帧

我用过：

df.cache（）

用于每个数据帧。但是，性能总是不好

我试图仅在内存中使用

持久化：
df.persist(MEMORY_ONLY) ==> NameError: global name 'MEMORY_ONLY' is not defined
df.persist(StorageLevel.MEMORY_ONLY) ==> NameError: global name 'StorageLevel' is not defined

如何在内存中持久化数据帧
你能给我建议一个提高性能的解决方案吗
提前谢谢
 使用
df=df.cache（）
打印（df.count（））
基本上，您需要调用一个操作来获得缓存的效果。
从pyspark.sql导入StorageLevel
，您必须导入moduleA regex类型的连接将总是非常缓慢。你不能在python中合并它吗？@samkart我已经添加了它，但是我得到了错误：ImportError:无法导入名称StorageLevelAh！我想应该是pyspark import StorageLevel的。
@samkart嗨，你对这个问题有什么想法吗？谢谢




[windbg]相关文章推荐



                                                        
如何在Windbg中反汇编本机API的最后几条指令？
windbg 
Windbg 启用gcUnmanagedToManaged MDA后应用程序未运行
windbg 
windbg在每个\u帧之后丢失参数对象
windbg 
使用WinDbg运行直到返回
windbg 
Windbg 命令失败-无法加载NTSDEXT
windbg 
                                       





随机文章推荐



                                                        
Breeze 十进制类型'；s的精度和刻度可以确定吗？
breeze 
具有Linux后端的BreezeJS
breeze 
Breeze 使用dataproperties数组的addentitytype不工作
breeze 
Breeze 已检索到导航属性数据，但无法访问
breeze 
Breeze 自定义DataService适配器saveChanges方法将实体设置为未更改
breeze 
BreezeJS在第二级扩展实体上的谓词
breeze 
BreezeSharp是否支持视图模式？
breeze 
Breeze EntityManager不删除导入的分离实体？
breeze


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
Pyspark --SPARK_SUBMIT_选项中的文件在齐柏林飞艇中不起作用
									Pyspark
							 
使用Quantlib函数的Pyspark自定义函数
									Pyspark
							 
如何在pyspark中设置PivotMaxValue？
									Pyspark
							 
Pyspark ApacheZeppelin:Spark集群配置
									Pyspark
							 
Google Dataproc Pyspark属性
									Pyspark
							 									Google Cloud Platform
							 
创建动态数据帧pySpark
									Pyspark
							 
如何在PySpark 2.x中使用trim？
									Pyspark
							 
pyspark连接两个RDD并将结果展平
									Pyspark
							 
Pyspark如何删除标点符号并在Rdd中生成小写字母？
									Pyspark
							 
pyspark：按ID计算连续差
									Pyspark
							 
Pyspark 如何从驱动器读取zip文件
									Pyspark
							 
PySpark：如何在JDBC连接中使用MySQL函数？
									Pyspark
							 
Pyspark/SparkML中没有GLMs的模型摘要
									Pyspark
							 
在pyspark中groupby之后，如何对组中的每一行应用函数？
									Pyspark
							 
Pyspark-按用户列出的最新记录并汇总结果
									Pyspark
							 
pyspark：获取每个子组中的最后一个观察结果
									Pyspark
							 
PySpark文档在哪里'；是否定义了数据帧df、df2、df3等？
									Pyspark
							 
Pyspark：如何将行分组为N个组？
									Pyspark
							 
Pyspark：在2个键上进行连接，根据条件生成列表列
									Pyspark
							 
pyspark UDF带有空值检查和if语句
									Pyspark
							 
Pyspark中的条件字符串操作
									Pyspark
							 
Pyspark 在Spark Azure Databricks中创建自定义进度条指示器
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Active Directory
Backbone.js
Nhibernate
Xslt
Wso2
Xamarin
Silverlight 4.0
Firefox
Google Bigquery
Couchdb
Extjs4
Extjs
Reactjs
Tree
Kibana
Grafana
Tomcat
Dask
Laravel 5
Protractor
Dependencies
Asp.net Web Api
Sitecore
For Loop
Salesforce
Compilation
Acumatica
Julia
Bison
Haskell
Object
Nuget
Nest
Libgdx
Soap
Css
Oop
Devexpress
Mapreduce
Mfc
Plot
Svg
Ruby
Compiler Errors
Perforce
Jestjs
Joomla
Signalr
Adobe
Frameworks
Git
Xml
Jms
Phpunit
Amazon Dynamodb
Ffmpeg
Sml
Printing
Javafx
Google App Engine
Paypal
Doctrine Orm
3d
Multithreading
Tsql
Dynamics Crm
Symfony
Internet Explorer
Activerecord
Corda
Directory
Razor
Azure Service Fabric
Uitableview
Clearcase
Linker
Cocoa Touch
Jasmine
C# 3.0
Single Sign On
Memory
Vagrant
Awk
Markdown
Gstreamer
C++
Yii2
Testng
Gdb
Apache Camel
Firefox Addon
Yocto
Automated Tests
Qt
Url Rewriting
Mpi
Apache Zookeeper
Oracle Apex
Wcf
Drupal
Curl
Plugins
Blockchain
Scripting
Mapping
Python Sphinx
Mvvm
Jhipster
Windows 10
Stata
Parallel Processing
Office Js
Outlook
Dictionary
Html
Breeze
Facebook
Less
Jsf
Mongoose
Xaml
Compression
Karate
Exchange Server
Cloud Foundry
Zurb Foundation
Amazon S3
Jdbc
Logic
Mediawiki
Firebase
Linq
Z3
Big O
Migration
Replace
Encoding
Material Ui
Selenium Webdriver
Fortran
Discord.py
Dll
Bots
Asp.net Core
Twitter
Pine Script
Kdb
Ionic2
Django Models
Sdk
Antlr4
Drupal 6
Configuration
Ag Grid
Meteor
Arm
Performance
Statistics
Language Agnostic
R
Http
Kotlin
C++ Cli
Content Management System
Algorithm
Validation
Excel Formula
Terraform
Cookies
Dynamic
Serialization
Pentaho
Design Patterns
Sql Server 2008 R2
Netbeans
Security
Math
Drupal 7
Robotframework
Workflow
Xsd
Directx
Optimization
Hash
Text
Azure
Vim
Tabs
Parsing
Influxdb
Qt4
Struct
Compiler Construction
Protocol Buffers
Google Cloud Storage
Routes
Odoo
Lucene
Node.js
Objective C
.net


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网