基于中间值的Pyspark数据帧过滤器_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/visual-studio-code/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
基于中间值的Pyspark数据帧过滤器_Pyspark - Fatal编程技术网

基于中间值的Pyspark数据帧过滤器

pyspark

基于中间值的Pyspark数据帧过滤器,pyspark,Pyspark,我有一个Pyspark数据框，其值如下- [Row(id='ABCD123', score='28.095238095238095'), Row(id='EDFG456', score='36.2962962962963'), Row(id='HIJK789', score='37.56218905472637'), Row(id='LMNO1011', score='36.82352941176471')] 我只想要来自DF的值，这些值的分数介于输入分数值和输入分数值+1之间，比如说，输入

我有一个Pyspark数据框，其值如下-

[Row(id='ABCD123',  score='28.095238095238095'), Row(id='EDFG456', score='36.2962962962963'), Row(id='HIJK789', score='37.56218905472637'), Row(id='LMNO1011', score='36.82352941176471')]

我只想要来自DF的值，这些值的分数介于输入分数值和输入分数值+1之间，比如说，输入分数值是36，那么我想要输出DF，只有两个id-EDFG456&LMNO1011，因为它们的分数介于36和37之间。我通过以下方式实现了这一点-

input_score_value = 36 input_df = my_df.withColumn("score_num", substring(my_df.score, 1,2)) output_matched = input_df.filter(input_df.score_num == input_score_value) print(output_matched.take(5))
上面的代码给出了下面的输出，但处理2 mil行所需的时间太长。我在想是否有更好的方法来缩短响应时间

[Row(id='EDFG456', score='36.2962962962963'), Row(id='LMNO1011',score='36.82352941176471')]
您可以使用该函数

它应该比
子字符串
快得多。让我知道
你好@lrnzcig，恐怕还是一样的响应时间！好啊好的，最后，你必须阅读200万行的专栏，我想这是不可避免的。。。据我所知，您无法加快速度，但是，如果您要多次这样做，可能您可以添加一个新列
floor（input\u df.score\u num）
，然后按该列重新划分数据集。重新分区本身需要相当长的时间，但之后查询应该会相当快。顺便说一下，我的答案中有一个拼写错误，我想你看到了，但我更正了它。
from pyspark.sql.functions import floor output_matched = input_df.filter(foor(input_df.score_num) == input_score_value) print(output_matched.take(5))

[visual studio code]相关文章推荐

随机文章推荐

如何在Webstorm IDE中关闭新文件上的自动消息？ webstorm

每次我调试并双击代码时，WebStorm 2017.3都会将我注销 webstorm

WebStorm Live模板$SELECTION$正则表达式 webstorm

Webstorm 如何更改面包屑顶部边框？ webstorm

WebStorm项目目录作为本地服务器的资源根目录 webstorm

[pyspark]相关推荐

使用python序列化要在Pyspark ML管道中使用的自定义转换器
Pyspark

Pyspark 在Spark 2.1.1中，StructType中的StructFields始终可以为空
Pyspark

从整数列表的PySpark数据帧数组中快速检索唯一整数？
Pyspark

OOzie中PySpark作业的主类
Pyspark

Pyspark '；模块'；对象没有属性'；分析'；使用解霸时
Pyspark

如何在pyspark中对数据帧行进行排序
Pyspark

Pyspark 获取IllegalArgumentException
Pyspark

如果CSV上没有标题，则在pyspark中读取CSV
Pyspark

如何在RDD pyspark上创建同一个键的可能集合和和字典值？
Pyspark

在pyspark2中读取文本文件
Pyspark

在调用UDF的函数外部定义UDF时出现Pyspark错误：方法uu getnewargs_uuu（[]）不存在
Pyspark

Pyspark SparkContext未在齐柏林飞艇中初始化
Pyspark

Pyspark &引用；索引处的值为空"；使用udf时出错
Pyspark

PySpark中解析CSV文件和错误处理的问题
Pyspark

如何使用group by子句对pyspark中的列进行排序
Pyspark

Pyspark：替换dataframe列中的变音字符
Pyspark

PySpark中的RobustScaler
Pyspark

pyspark可分解dict列表，并根据dict键对其进行分组
Pyspark

Pyspark PypSpark中具有特定值zipWithIndex的开始索引
Pyspark

Pyspark AWS Glue-GlueContext：从S3读取分区数据，将分区添加为DynamicFrame的列
Pyspark

如何将此sql查询转换为pyspark？
Pyspark

如何在Pyspark dataframe中使用length split和MaxSplit拆分列？
Pyspark

从pyspark中的下一列中删除空值和移位值
Pyspark

Pyspark 在本地运行aws粘合作业时出现问题
Pyspark

Pyspark Pyspaprk计数符合条件的出现次数
Pyspark

在Pyspark的dataframe中将每个组的总计作为新行添加
Pyspark

PySpark：删除从其他行派生的行
Pyspark Tree

Pyspark 在配置单元中将数据从一个表加载到另一个表
Pyspark Hive

Pyspark 将文件的数据处理到kafka时出现问题，这将触发结构化流
Pyspark Apache Kafka

Tags

Jar Memory Leaks Hbase Lambda If Statement Properties Ethereum Appium Adobe For Loop Deployment Ldap Datatables Webpack Magento2 Less Model Serialization Xmpp Discord.py Teamcity Silverlight Json Jaxb Angular Material Parameters Codenameone Xamarin.android Ios8 Sql Server 2005 Join Enums Php Hive Artifactory Google Plus Qml Performance Karate Outlook Visual Studio 2012 Sed Plone Clang Struts2 Authentication Javascript Amp Html Linker Entity Framework 4 Internet Explorer 8 Events Arm Python 3.x Inno Setup Arrays Swing Xcode Telegram Spring Zsh Synchronization Azure Functions Entity Framework Html5 Canvas Oracle Mysql Jvm Mapreduce Triggers Playframework 2.0 Drupal 6 Windows Runtime Camera Gulp Amazon Web Services D3.js Isabelle Vector Security Keras Office Js Loopbackjs Couchdb Jsp Ada Fonts Url Rewriting Drupal 7 Stripe Payments Windbg Data Structures Verilog Xaml Redirect Com Leaflet Google Visualization Discord.js Odata Jhipster Angular Primefaces Amazon S3 Apache Zookeeper Cordova Coq Stanford Nlp Exchange Server Google Bigquery Datetime Ansible Coffeescript Node.js Google Api Jasper Reports Webstorm Jms Vhdl Selenium Msbuild Combobox Interface Proxy Ag Grid Iis 7 Jquery Mobile Asp.net Mvc Wpf Cloud Exception Elm Ssh Mongodb Websphere Redis Ffmpeg Hybris Data Binding Jboss Matplotlib Uitableview Azure Sql Database Swift2 Http Julia Google Cloud Firestore Dialogflow Es Dependencies Air Ruby On Rails Dom Spring Batch Lotus Notes Three.js Keyboard Wxpython Snmp Compression Pine Script Passwords Pycharm Deep Learning Swift3 Junit Sequelize.js Webgl Shopify Vaadin Matlab Openshift Neural Network Dojo Domain Driven Design D Unity3d Merge Laravel 5 Bots Elixir Seo Processing Opencart Cygwin Logic Sonarqube Class Error Handling Kibana Prolog Unicode Asp Classic Google Colaboratory Django Kotlin Laravel Spotify Devexpress Azure Latex Time Complexity

Copyright © 2024. All Rights Reserved by - Fatal编程技术网