pyspark检查庞大列表中的元素_Pyspark - Fatal编程技术网

pyspark检查庞大列表中的元素

pyspark

pyspark检查庞大列表中的元素,pyspark,Pyspark,我有一个中等大小的spark数据帧（比如10000到100000行），并且希望根据行是否在一个巨大的列表中（数千万长）来过滤行。我所做的是： sc.broadcast(huge_list) df = df.filter(df['some_col'].isin(huge_list)) 然而，演出相当缓慢。有没有一种有效的方法可以做到这一点？只需执行一个连接即可。您可以将列表按行分解。然后，使用internal连接两个数据帧。结果应该更快是的，它奏效了，但我不完全明白。当我执行我的原始代码时，

我有一个中等大小的spark数据帧（比如10000到100000行），并且希望根据行是否在一个巨大的列表中（数千万长）来过滤行。我所做的是：

sc.broadcast(huge_list)
df = df.filter(df['some_col'].isin(huge_list))

然而，演出相当缓慢。有没有一种有效的方法可以做到这一点？

只需执行一个

连接即可。
您可以将列表按行分解。然后，使用internal
连接两个数据帧。结果应该更快
 是的，它奏效了，但我不完全明白。当我执行我的原始代码时，pyspark外壳就永远卡住了。当我使用join时，至少舞台栏出现并开始进步。当isin发生在本地级别时，加入不涉及大量的网络洗牌吗？为什么加入更快？@YuchenHu基本上，如果你播放你庞大的列表，它会被复制到每个工作节点上。因此，这一步请求的资源太多，您的流程就卡住了。




[angular]相关文章推荐



                                                        
Angular 角度2-如何禁用按钮并重新启用，直到在下拉列表中选择某个值？
angular 
使用原始加载程序加载Angular 2中的动画
angularwebpack 
Angular TypeScript添加一天功能
angulardatetypescript 
Angular 角度4变化检测在启动时运行两次，即使在生产模式下也是如此
angular 
从Angular 4中的其他组件切换侧栏菜单
angular 
Angular Javascript/Typescript：展平通过firebase访问的对象
angulartypescriptfirebase 
Angular 如何在ionic 2中3秒后隐藏图像？
angularionic-frameworkionic2 
jhipster应用程序提供了不同的eTLD+；1错误（angular 2+；和mysql应用程序）
angularjhipster 
Angular 角度2+中的单元测试；（点击按钮时调用测试方法）
angular 
Angular 是否将javascript生成的元素插入Priming turbotable？
angulartypescript 
Angular 如何对角材料表中其他语言字符的数据进行排序？
angularangular-material 
Angular 当父路由中的数据更改时，如何更新子路由中的数据
angular 
Angular Array.push（）全局增加条目数
angulartypescript 
HttpObserve是否已在HttpClient get请求的Angular 8版本中消失
angular 
Angular 直接用打印机打印收据
angular 
Angular BehaviorSubject为空
angulartypescriptwebsocket 
Angular 除了异步管道之外，是否还有其他方法可以自动订阅/取消订阅可观察管道？
angularrxjs 
与laravel和angular 7集成
angularlaravel 
Angular 如何使用ngx网络摄像头以角度录制视频-拍摄照片有效
angularvideo 
Angular 如何完成get请求，然后继续执行
angulartypescript 
                                       





随机文章推荐



                                                        
Datatables 数据表中的自定义顺序（jQuery插件）
datatables 
Datatables 为什么"；columnToggle"-按钮动画不改变？
datatables 
Datatables 在parceljs中导入数据表
datatables 
Datatables 如何导出pdf内容数字数据向右对齐
datatables 
Datatables 我的数据库数据不是'；t显示在jQuery数据表中
datatablesjavascriptc#jqueryasp.net-mvc 
Datatables 数据表分页器，当有多个页面时显示一个页面
datatables


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
Pyspark 在2个巨大的RDD'；s
									Pyspark
							 
如何从pyspark中的RDD中获取值？
									Pyspark
							 
pyspark：如何在spark 1.6.3上使用法语配置StopWordsRever
									Pyspark
							 
Pyspark 在查询结束时需要foo
									Pyspark
							 									Teradata
							 
PySpark使用“保存到红移表”；“过度渲染”；模式导致删除表？
									Pyspark
							 
如何在pyspark中自动删除常量列？
									Pyspark
							 
Pyspark 使用火花-红移接头将火花连接到红移时出现问题
									Pyspark
							 									Amazon Redshift
							 
PySpark数据帧转换
									Pyspark
							 
将pyspark数据帧转换为动态数据帧
									Pyspark
							 
如何在齐柏林飞艇笔记本和pyspark中导入Delta Lake模块？
									Pyspark
							 
PySpark在pivot之后连接列
									Pyspark
							 
使用数据帧在pyspark中实现Louvain
									Pyspark
							 
使用pyspark对列上的值求和
									Pyspark
							 
Pyspark 我可以在齐柏林飞艇的'sh'命令中包含一个变量吗？
									Pyspark
							 
在pyspark上连接1=1
									Pyspark
							 
Pyspark py spark已成功写入无效日期，但在读取时引发异常
									Pyspark
							 
Pyspark 如何从.txt.bz2文件创建Spark数据帧
									Pyspark
							 
如何查找pyspark数据帧的大小
									Pyspark
							 
Pyspark 分批拆分数据帧
									Pyspark
							 
Pyspark 如何将经过处理的火花流插入卡夫卡
									Pyspark
							 									Apache Kafka
							 
Pyspark：计数频率取决于时间
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Log4net
Opencart
Twitter Bootstrap
Karate
Ms Access
Iis
Cluster Computing
Phpstorm
Computer Vision
Scripting
Uitableview
Events
Object
Windows 7
Linker
Sencha Touch
Jasmine
Cloud Foundry
Wxpython
Vuejs2
Aem
Codenameone
Ubuntu
Protractor
C# 3.0
Sql Server 2008 R2
Fullcalendar
Glsl
Postgresql
Language Agnostic
Doctrine Orm
Scala
Intellij Idea
Caching
Magento2
Compilation
Ibm Mobilefirst
.net 4.0
Xamarin.ios
Nginx
Graph
Windows 10
Couchdb
Ajax
Spring Security
Debian
Wordpress
Xpath
Matplotlib
Dictionary
Next.js
Loops
Google Apps Script
Visual Studio 2012
Cron
Install4j
Sms
Ruby
Lambda
Image Processing
Ada
Rx Java
Azure
Z3
Amazon Web Services
Google Compute Engine
Ssh
Meteor
C++
Notepad++
Spring Batch
Zsh
Autodesk Forge
Ethereum
Openlayers
Xcode
Teradata
Primefaces
Ssrs 2008
Mysql
Websocket
Elm
Symfony
Xquery
Log4j
Big O
Ldap
Pine Script
Parameters
Download
Tridion
Hyperledger Fabric
Glassfish
Post
Amazon Ec2
Google Chrome
Appium
Responsive Design
Function
Android
Flash
Graphviz
Join
Transactions
Stream
Yaml
Docker
Sql Server 2005
Asp.net Mvc 4
Reflection
C++11
Asp.net Core
Speech Recognition
Nest
Vba
Twilio
Discord.py
Xslt
Mongodb
Flask
Azure Data Factory
Mod Rewrite
Sed
Oracle
Ansible
Playframework 2.0
Url Rewriting
Enums
Angular Material
Vb.net
Google App Engine
Stored Procedures
Visual Studio
Floating Point
Android Layout
Machine Learning
Stanford Nlp
Julia
Mariadb
Netsuite
Entity Framework 4
Windbg
Json
Npm
D
Gnuplot
Applescript
Clearcase
Windows Installer
Webstorm
Collections
Swagger
Aurelia
Azure Ad B2c
Windows Phone
Postman
Gmail
Windows Store Apps
Nativescript
Mqtt
Testing
Vbscript
Build
Rust
Internationalization
Swift2
Amazon Cloudformation
Sql Server 2008
Macros
Jetty
Office Js
Modelica
Gruntjs
Couchbase
Azure Functions
Silverlight 4.0
Formatting
Certificate
Go
Django Rest Framework
Netty
Html5 Canvas
Highcharts
Unicode
Graphics
Apache Flex
Redux
Hbase
Workflow
Mvvm
If Statement
Orm
Usb
Cygwin
Cors
Less
Bootstrap 4
Date
Google Calendar Api
Ms Office
Actions On Google


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网