Python 根据小数据帧中的信息过滤大数据帧_Python_Dataframe_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 根据小数据帧中的信息过滤大数据帧_Python_Dataframe_Pyspark - Fatal编程技术网

Python 根据小数据帧中的信息过滤大数据帧

python dataframe pyspark

Python 根据小数据帧中的信息过滤大数据帧,python,dataframe,pyspark,Python,Dataframe,Pyspark,我有一个大约10亿行和15列的大型数据框 | country| city | date | ...| +--------+-------+-----------+----+ | France| Paris| 2018-07-01| ...| | Spain| Madrid| 2017-06-01| ...| 我有一个较小的数据框，其中包含根据组合（国家、城市）筛选的日期，大约50行 | country| city | filter_date | +--------+---

我有一个大约10亿行和15列的大型数据框

| country|  city | date      | ...|
+--------+-------+-----------+----+
|  France|  Paris| 2018-07-01| ...|
|   Spain| Madrid| 2017-06-01| ...|

我有一个较小的数据框，其中包含根据组合（国家、城市）筛选的日期，大约50行

| country|  city | filter_date |
+--------+-------+-------------+
|  France|  Paris| 2018-07-01  |
|   Spain| Madrid| 2017-06-01  |

我想使用存储在给定组合的小数据框中的筛选器_日期按日期筛选大数据框-例如，删除包含（法国、巴黎）且在2018-07-01之前的任何行，等等

我最初想到的解决方案只是进行左连接，然后进行过滤，例如：

df = df_large.join(df_small, on=['country', 'city'], how='left').filter(f.col('date') >= c.col('filter_date'))

但是这个解决方案并不理想，因为左连接非常昂贵，而且我的数据帧太大。执行此操作后执行操作时，代码需要很长时间才能运行。

尝试

左半部分加入+广播较小的df。还可以使用和组合所有过滤器，如下所示-
df_large.join（广播（df_small），df_large（“国家”）==df_small（“国家”）&&
df_large（“城市”）==df_small（“城市”）和&df_large（“日期”）>=df_small（“筛选日期”），“leftsemi”）
我相信它应该只有2个等于'=='而不是'=='，对吗？在pyspark中是的，就像一样。join（department，people.deptId==department.id）
其中people和department是dfs==返回一个布尔值===返回一列（其中包含两列元素的比较结果）




[dataframe]相关文章推荐



                                                        
DataFrames.jl行数
dataframejulia 
Dataframe 如何使用pySpark更改数据帧中的单元格值？
dataframepyspark 
Dataframe 类型为：Dictionary的SFrame列
dataframe 
Dataframe 数据实验室中大数据集的数据准备和描述
dataframegoogle-cloud-platform 
在Dataframe上迭代以添加一个
dataframejulia 
Dataframe 重命名Pyspark列中的元素
dataframepyspark 
Dataframe 如何使用pyspark遍历/迭代数据帧？
dataframepyspark 
如何按条件子集Julia DataFrame，其中列缺少值
dataframejulia 
Dataframe 用于过滤PySpark中的值的函数
dataframeapache-sparkfilterpyspark 
Dataframe 将pyspark中的嵌套数据帧展平为列
dataframeapache-sparkpyspark 
Dataframe 朱莉娅：如何从数据帧中按索引删除多行
dataframejulia 
Dataframe pyspark：比较2个大型pyspark数据帧
dataframepyspark 
Dataframe 筛选行和附加值
dataframejulia 
了解julia DataFrames.select（）中冒号的行为
dataframejulia 
Dataframe 如何识别条件中的NaN值？
dataframeif-statement 
                                       





随机文章推荐



                                                        
Parameters Crystal Report子报表在生产服务器上丢失链接参数
parameterscrystal-reports 
Parameters 为什么我不能从控制器上的visualforce页面获取值？
parameters 
Parameters SSIS参数
parametersssis 
Parameters Aurelia-如何将对象或参数发送到viewmodel？
parametersaurelia


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Uitableview
Localization
Testng
Itext
Lambda
Umbraco
Big O
Doctrine Orm
Tinymce
Mips
Windbg
Robotframework
Couchbase
Msbuild
Meteor
Wpf
Fonts
Logstash
Objective C
Jquery Plugins
Jpa
List
User Interface
Ionic2
Instagram
Cobol
Jsf
Ios5
Exception Handling
Ldap
Sql Server 2008
X86
Webgl
Selenium Webdriver
Vb.net
Time
Ckeditor
Web Crawler
Dart
Axapta
Pyspark
Core Data
Actions On Google
F#
Activemq
Sharepoint 2013
Servlets
Magento
Webrtc
Awk
Javascript
C#
Stm32
Firefox Addon
Charts
Weblogic
Video Streaming
Pip
Highcharts
Prestashop
Nest
Tensorflow
Vector
Routes
Chart.js
Github
Gtk
Windows 8
Sharepoint
Perforce
Flask
Phantomjs
Apache
Class
Mfc
Mongoose
Hbase
Nhibernate
Stream
Camera
Stripe Payments
Redis
Bash
Winapi
Assembly
Keyboard
Sugarcrm
Aws Lambda
Git
Google Drive Api
Methods
Xaml
C
Eclipse
Encryption
Puppet
Cuda
Usb
Reflection
Mobile
Vagrant
Gruntjs
Sonarqube
Grails
Android Emulator
Continuous Integration
Domain Driven Design
Google Chrome
Polymer
Hybris
Sql Server
.net Core
Json
Nginx
Julia
Time Complexity
Solr
Iphone
Oracle Apex
Rally
Intellij Idea
Macros
Drupal 7
Asp.net Mvc 2
Activerecord
Computer Science
Xcode
Jsp
Office Js
Notifications
Blackberry
Replace
Heroku
Quickbooks
Acumatica
Django Models
Tridion
Internet Explorer 8
Tree
Ios8
Google Plus
Linkedin
Compiler Construction
Rest
Ios6
Caching
Programming Languages
Language Agnostic
Openstack
Db2
Jms
Netty
Microsoft Graph Api
Arm
Merge
Responsive Design
Nestjs
Tfs
Octave
Push Notification
Azure
Unity3d
Gmail
Ftp
Types
Mediawiki
Netlogo
Gdb
Silverstripe
Udp
.net 4.0
Jquery Ui
C# 4.0
Cloud
Indexing
Jmeter
Apache Kafka
Raspberry Pi
Web Scraping
Image
Azure Active Directory
Ajax
Dictionary
Mysql
Ruby On Rails 4
Graphics
Windows Services
Android Studio
Entity Framework
Arduino
Visual Studio Code
Jboss
Ember.js
System Verilog
Processing
Knockout.js
Java 8
Process
C++ Cli
Apache2
Ravendb


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网