Scala 仅保留dataframe列中具有重复值的行_Scala_Apache Spark_Dataframe - Fatal编程技术网

Scala 仅保留dataframe列中具有重复值的行

scala apache-spark dataframe

Scala 仅保留dataframe列中具有重复值的行,scala,apache-spark,dataframe,Scala,Apache Spark,Dataframe,我正在用scala学习spark。我有一个由两列组成的数据帧 col1 col2 a 1 b 1 b 2 c 1 c 3 b 4 d 5 我想删除col2中的值只存在一次的所有行（2、3、4和5）。基本上，我想要的是做与dropDuplicates相反的事情。这里有一种方法涉及到窗口函数。这里的想法是使用一个按col2排序的窗口，并检查相邻记录-如果上一条或下一条记录具有相同的col2值-保留记录： import org.

我正在用scala学习spark。我有一个由两列组成的数据帧

我想删除col2中的值只存在一次的所有行（2、3、4和5）。基本上，我想要的是做与dropDuplicates相反的事情。

这里有一种方法涉及到窗口函数。这里的想法是使用一个按
col2
排序的窗口，并检查相邻记录-如果上一条或下一条记录具有相同的
col2
值-保留记录：

import org.apache.spark.sql.functions._ import spark.implicits._ val window = Window.orderBy("col2") val result = df .withColumn("prev", lag($"col2", 1).over(window)) .withColumn("next", lead($"col2", 1).over(window)) .where($"prev" === $"col2" or $"next" === $"col2") .drop("prev", "next")

您可以使用
groupBy
计算要删除的行，然后执行左反联接以过滤出dem：

df.join( df.groupBy($"col2") .agg(count($"col2").as("count")) .where($"count"===1), Seq("col2"), "leftanti" )
或者使用窗口功能：

df .withColumn("count",count($"col2").over(Window.partitionBy($"col2"))) .where($"count">1).drop($"count")

谢谢，我只需要导入org.apache.spark.sql.expressions.Window就可以了。我想我会使用第一种方法，就像我不需要窗口函数一样，也许我以后会进一步研究：）

[apache spark]相关文章推荐

Apache spark 失败的任务是否在Apache Spark中重新提交？ apache-spark

Apache spark 3个节点cassandra，其中一个是spark master-用于解决地理空间数据或地理数据 apache-spark cassandra

Apache spark Spark远程作业 apache-spark

Apache spark 如何将Spark DataFrame列转换为列表？ apache-spark

Apache spark 如果列名包含空格，DataFrame能否转换为case类的Dataset？ apache-spark

Apache spark 火花上的TensorFlow:Can'；t pickle局部对象循环 apache-spark tensorflow parallel-processing pyspark

Apache spark 将Spark数据帧写入CSV apache-spark

Apache spark 为什么Spark JavaRDD flatmap函数返回迭代器 apache-spark

Apache spark Spark-简单线性回归 apache-spark

Apache spark 为什么repartition（）方法会增加磁盘上的文件大小？ apache-spark

Apache spark E-Mapreduce上未设置获取作业启动器类名错误 apache-spark

Apache spark 启动Spark流媒体应用程序时如何获得通知？ apache-spark

Apache spark 什么时候应该在ApacheSpark中使用createTempView？ apache-spark

Apache spark 如何使用Arthren rest api向spark提交作业？我想使用ThreadRESTAPI将作业提交给spark apache-spark

Apache spark 如何将具有常量值的新日期列添加到Spark数据帧（使用PySpark）？ apache-spark

Apache spark 哪里是*所有*Spark属性键的列表？ apache-spark

Apache spark ValidationFailureSemanticException:分区规范包含非分区列 apache-spark hive

Apache spark 错误：带有kafka流包的spark流在spark shell中不工作 apache-spark apache-kafka

Apache spark Pyspark将字符串转换为包含两种不同格式的日期时间戳列 apache-spark pyspark

Apache spark 使用where或filter语句在pyspark中运行子查询 apache-spark pyspark

随机文章推荐

Doxygen 是否可以将SandCastle与Visual Studio 2008和C++；（非CLI）？我迷惑不解：我使用VisualStudio 2008用C++（非CLI），我不能用我的生活来解决如何用SoSoCalts构建帮助文件。 doxygen

doxygen 1.8.3子页面：缺少空格 doxygen

查看doxygen注释文件的简单方法？ doxygen

Doxygen 强氧剂。如何排除多个文件？ doxygen

Doxygen：可以控制依赖关系图的方向吗？ doxygen

Doxygen 显示全局函数及其摘要的列表 doxygen

[scala]相关推荐

Scala 如何向forkjoinpool添加更多线程
Scala Concurrency

如何构造Scala mixin特征以强制转换为扩展类型的返回？
Scala

Scala 休眠会话到列表转换
Scala

使用Scala'更高级的数学；s数字和小数
Scala Math

为什么'；scala编译器不能将其识别为元组吗？
Scala

Scala高阶函数有点混乱
Scala Functional Programming

Scala 使用SBT-Native Packager插件向play项目添加工件
Scala Playframework 2.0

Scala 在使用蛋糕模式时如何构造游戏项目
Scala Playframework

Scala枚举值获取的值
Scala Playframework Enums Playframework 2.0

Scala akka 2.0向self发送消息
Scala Akka

Scala 使用模式匹配实现递归函数
Scala

Scala中隐式参数中使用的各种类型的集合
Scala

如何使用scala基于列为每条线创建贴图？
Scala

Scala 如何在包中放置隐式对象？
Scala

Scala 根据谓词拆分器将对象列表拆分为不同的列表
Scala

Scala 发现错误：artifact.type（具有基础类型SA）需要错误：$2
Scala

使用类型类和工厂方法时出现Scala类型不匹配错误
Scala

带播放Scala的ReactiveMongo
Scala Playframework Playframework 2.0

scala：在闭包中强制不可变类型
Scala

Scala 我应该在内部使用序列，然后转换为列表吗
Scala

Scala java 7中java.util.function.function的替代实现
Scala Java 8

Scala 使用mixin类的类成员参数化超类
Scala Inheritance

Scala akka持久化回调参数是否与持久化事件相同
Scala Akka

在scala中将RDD[（Int，Int）]转换为PairRDD
Scala Apache Spark

Scala 将数组作为case类的单独参数传递
Scala Coding Style

Scala 屈服于foreach-重构
Scala

Scala 如何通过spark中的Futures保证集群资源的有效利用
Scala Apache Spark

Scala Akka Alppaka生产商如何与Akka HTTP集成
Scala Apache Kafka Akka

Scala 类ClassName（变量）（spark:SparkSession）{}
Scala Apache Spark

Scala Spark—在groupby和collect期间跨列维护数据顺序
Scala Apache Spark Hadoop

Tags

Coq Jqgrid Sms Android Fragments Sitecore Active Directory Android Layout Elm X86 Abap Bison Xslt Grafana Listview Tinymce Axapta Ruby Tsql Optimization Elixir Alfresco Swiftui Redux Amazon S3 Methods Sql Server 2005 Jersey Graphql Racket Grep Cmd Email Jms Cobol Amazon Dynamodb Monitoring Data Binding Breeze Haskell Csv Openerp Statistics Extjs4 Phpmyadmin Templates Yaml Jsf 2 Playframework 2.0 Menu Keyboard Sql Server Npm Google App Maker Vector Sails.js Google Maps Passwords Omnet++ Jsp Next.js C# Concurrency Rss Tkinter Windows Phone 8 Inno Setup Mips Ruby On Rails 4 Pointers Authentication Linq To Sql Spring Integration Ckeditor Three.js Botframework Activemq Button Raspberry Pi Documentation Keycloak Design Patterns Gitlab Encryption C++ Cli Gatsby Pycharm Mpi Ajax Networking Web Crawler Django Compiler Construction If Statement Cassandra Karate Python 3.x Sorting Opengl Neural Network String Cakephp Java Import Xamarin.android Routing Llvm Operating System Asp.net Mvc 2 Chef Infra Oop Azure Functions Applescript Stm32 Aframe Xmpp Jasper Reports Bluetooth Prolog Protocol Buffers Microsoft Graph Api Office365 Clojure Google Api Module 3d Powerbi Pyspark Command Line Stripe Payments Android Emulator Merge Doctrine Orm Replace Coldfusion Css Nest Ffmpeg Python Random Lucene Shopify Multithreading Rx Java Camera Sml Struct Zurb Foundation Logging .htaccess Rabbitmq Eclipse Rcp Joomla Mapreduce Syntax Gmail Coffeescript Symfony Odoo Ssl Enums Gruntjs Hyperledger Fabric Exception Codenameone Io Facebook Graph Api Dataframe Assembly Rust Java Me Intellij Idea Flutter Github Flash Drools Codeigniter Graphics Matlab Node.js Events Geometry Cloud Foundry Permissions Windows Phone Testing Web Applications Discord.js Machine Learning Chart.js Pine Script Orchardcms Certificate Twig Logstash Redirect Web Services Gcc Domain Driven Design Windbg Open Source Angular Material

Copyright © 2024. All Rights Reserved by - Fatal编程技术网