Python 如何提高pyspark连接的性能_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/285.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何提高pyspark连接的性能_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 如何提高pyspark连接的性能

python apache-spark pyspark

Python 如何提高pyspark连接的性能,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我有两个数据帧，如下所示： df1（2000万行）： df2（50行）：我想通过比较df1和df2中的lat long，在df1中获得一个新的列“state”。从下面的数据帧中，lat long上的Join将提供零记录，因此我使用一个阈值，并使用该阈值执行Join操作： threshold = F.lit(3) def lat_long_approximation(col1, col2, threshold): return F.abs(col1 - col2) < thres

我有两个数据帧，如下所示：

df1（2000万行）：

df2（50行）：

我想通过比较df1和df2中的lat long，在df1中获得一个新的列“state”。从下面的数据帧中，lat long上的Join将提供零记录，因此我使用一个阈值，并使用该阈值执行Join操作：

threshold = F.lit(3) 
def lat_long_approximation(col1, col2, threshold):
    return F.abs(col1 - col2) < threshold

df3 = df1.join(F.broadcast(df2), lat_long_approximation(df1.lat, df_state.lat, threshold) & lat_long_approximation(df1.long, df_state.long, threshold))

threshold=F.lit（3）
def lat_long_近似值（col1，col2，阈值）：
返回F.abs（col1-col2）<阈值
df3=df1.join（F.broadcast（df2），lat_long_近似（df1.lat，df_state.lat，阈值）和lat_long_近似（df1.long，df_state.long，阈值））

这需要很长时间。有谁能帮助我优化这个连接或任何更好的方法，避免使用单独的函数（lat_long_近似）

你可以在

之间使用。我对演出没有把握
threshold = 10 # for test
df1.join(F.broadcast(df2), 
         df1.lat.between(df2.lat - threshold, df2.lat + threshold) & 
         df1.long.between(df2.long - threshold, df2.long + threshold), "left").show()

threshold = F.lit(3) 
def lat_long_approximation(col1, col2, threshold):
    return F.abs(col1 - col2) < threshold

df3 = df1.join(F.broadcast(df2), lat_long_approximation(df1.lat, df_state.lat, threshold) & lat_long_approximation(df1.long, df_state.long, threshold))

threshold = 10 # for test
df1.join(F.broadcast(df2), 
         df1.lat.between(df2.lat - threshold, df2.lat + threshold) & 
         df1.long.between(df2.long - threshold, df2.long + threshold), "left").show()




[apache spark]相关文章推荐



                                                        
Apache spark 停止所有现有的spark上下文
apache-sparkpyspark 
Apache spark spark sql当前时间戳函数
apache-spark 
Apache spark spring xd按作业提交sparkapp，无结果输出，状态始终为STARTED（正在运行）
apache-spark 
Apache spark 如何在Spark streaming中异步在流数据定义的表上运行SQL查询？
apache-spark 
Pyspark使用SaveAsNewApiHadoop文件将数据流数据写入Elasticsearch
apache-sparkpysparkapache-kafka 
Apache spark GoogleBigQuery:Spark-不兼容的表分区规范
apache-sparkgoogle-bigquery 
Apache spark Apache Spark对jost计数（*）的大量查询
apache-sparkjdbc 
Apache spark 什么'；在处理元组\消息时，Storm和Spark流之间的延迟有什么区别？
apache-sparkapache-storm 
Apache spark Databricks：如何将%python下的Spark数据帧转换为%r下的数据帧
apache-sparkpyspark 
Apache spark 支持spark作业中的多租户
apache-spark 
Apache spark 如何通过JDBC/ODBC驱动程序从HAWQ连接spark？
apache-sparkjdbc 
Apache spark 如何在Spark数据帧中使用条件连接？
apache-spark 
Apache spark 使用kafka的Spark结构化流媒体只能产生一批（Pyspark）
apache-sparkpysparkapache-kafka 
Apache spark 元组列表上的Pypark集
apache-sparkpyspark 
Apache spark 为什么Spark会多次运行每个任务
apache-spark 
Apache spark “是什么意思？”；OffsetAutoFrangeException：没有为分区配置重置策略的偏移量超出范围；？
apache-sparkapache-kafka 
Apache spark spark shuffle内存错误：无法分配直接内存
apache-sparkjvm 
Apache spark spark图上的Gremlin遍历查询
apache-sparkgremlin 
Apache spark 有没有办法将源文件修改后的时间戳添加为附加列？
apache-spark 
Apache spark 在Spark 2.4中取消pivot后，列值未正确对齐
apache-spark 
                                       





随机文章推荐



                                                        
Logging Coldfusion日志记录问题
loggingcoldfusion 
Logging Enterprise Library 4.0：如何在使用滚动平面文件跟踪侦听器时去掉页眉和页脚
logging 
Logging 日志应用程序块-优先级、类别值
logging 
Logging 使用xml打印的SOAP跟踪日志查看器
loggingsoap 
Logging 压缩Powershell中按日期筛选的日志文件
loggingscriptingpowershell 
Logging 如何轻松记录XML-RPC流量？
loggingproxy 
Logging hadoop 2.2.0活动名称节点是否删除编辑日志？
logginghadoop 
Logging CURL发送的Moodle日志post数据
loggingcurlmoodle 
Logging 如何在Windows中启动jboss？
loggingjboss 
Logging 使用logstash解析日志时如何添加序列id
logginglogstash 
Logging 未记录测试对象/应用程序日志中的Jmeter日志
logginglog4jjmeter 
Logging 从使用多个平台构建的API进行日志记录
loggingasp.net-web-api 
Logging &引用；“子串上的不同”；Kibana4中的查询
logginglogstashkibana 
Logging 如何在python 2.6中使用日志记录NullHandler
logging 
Logging Angular2测井
loggingangular 
Logging 如何在StackExchange.Exception中记录客户端异常？
loggingexception-handling 
Logging 不同子类的单独日志记录
logging 
Logging Azure功能（v2）：每个环境的日志记录行为不同
loggingdeploymentconfigurationazure-functions 
Logging 通过自定义HTTP服务将用户访问日志发布到Kafka
loggingapache-kafka 
Logging 更新到Weblogic12后，不会写入应用程序日志
loggingweblogic


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Uml
Authentication
Itext
Arrays
Subsonic
Breeze
Google Drive Api
Prometheus
Cryptography
Android Ndk
Zsh
Phpmyadmin
Amazon Ec2
Routing
Scripting
Logstash
Rust
Vim
Stata
Tabs
Aem
Devexpress
Entity Framework
Typescript
Rest
Laravel 5
Drupal 7
Sbt
Microservices
Perforce
Graphql
Text
Openshift
Odoo
Tensorflow
String
Z3
Cmake
Database Design
Doxygen
Codenameone
Alfresco
Speech Recognition
Usb
Heroku
Quickbooks
Jsf 2
Polymer
Mule
Continuous Integration
Hyperledger Fabric
Crystal Reports
Spring Boot
.htaccess
Protractor
C++
Nservicebus
Dll
Ipython
Gdb
Powerbi
Unity3d
Socket.io
Apache Pig
Asp.net Mvc
Json
Rabbitmq
Omnet++
Websphere
Graph
Zend Framework2
Here Api
Ffmpeg
Datetime
Apache
Operating System
Autohotkey
Google Plus
Syntax
Npm
Google Cloud Dataflow
Rspec
Oracle11g
Hybris
Oauth
Xaml
Bazel
Blazor
Anaconda
Hive
Https
Collections
Drools
Vuejs2
Internet Explorer 8
Domain Driven Design
Transactions
Html
Bots
Nosql
Sprite Kit
Pytorch
Db2
Glassfish
Ada
Url
Twig
Resharper
Zend Framework
Bootstrap 4
Filesystems
Time Complexity
Xpages
C
Variables
Architecture
Sqlalchemy
Wcf
Swift2
Pandas
Snowflake Cloud Data Platform
Jasper Reports
Chef Infra
Google Bigquery
Object
Drupal
Electron
Blockchain
Windows
Memory Management
Workflow
Jdbc
Data Structures
Jsp
Xpath
Nuget
Django Models
Autodesk Forge
Llvm
List
Highcharts
Modelica
Stored Procedures
Tomcat
Io
Ckeditor
Next.js
Vue.js
Reporting Services
Nhibernate
Curl
Gridview
Telegram
Automation
Ember.js
Post
Mod Rewrite
Kendo Ui
Google Chrome Extension
Service
Isabelle
Nest
Lotus Notes
Cluster Computing
Akka
Composer Php
Dns
Networking
Merge
Visual Studio Code
Debugging
Telerik
Spring Integration
C++ Cli
Chart.js
C++11
Asp.net Mvc 3
Applescript
Language Agnostic
Sublimetext2
Installation
.net Core
Hyperlink
Ldap
Sap
Symfony
Dart
Xamarin
Frameworks
Go
Mongodb
Aws Lambda
Css
Autocomplete
Download
Asynchronous
Formatting
Exchange Server
Rx Java
Angular Material
Html5 Canvas


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网