在Spark DataFrame和单词列表之间使用类似ORACLE的功能-Scala_Scala_Apache Spark - Fatal编程技术网

在Spark DataFrame和单词列表之间使用类似ORACLE的功能-Scala

scala apache-spark

在Spark DataFrame和单词列表之间使用类似ORACLE的功能-Scala,scala,apache-spark,Scala,Apache Spark,我的要求类似于：我需要的不是直接匹配，而是列表上的类似类型匹配。i、我们想喜欢将评论与列表匹配 ID,COMMENTS 1,bad is he 2,hell thats good 3,sick !thats hell 4,That was good List = ('good','horrible','hell') 我想得到像这样的输出 ID, COMMENTS,MATCHED_WORD,NUM_OF_MATCHES 1,bad is he,, 2,hell t

我的要求类似于：

我需要的不是直接匹配，而是列表上的类似类型匹配。i、我们想喜欢将评论与列表匹配

ID,COMMENTS 1,bad is he 2,hell thats good 3,sick !thats hell 4,That was good List = ('good','horrible','hell')
我想得到像这样的输出

ID, COMMENTS,MATCHED_WORD,NUM_OF_MATCHES 1,bad is he,, 2,hell thats good,(hell,good),2 3,sick !thats hell,hell,1 4,That was good,good,1
简单地说，我需要：（据我所知，rlike不匹配列表中的值，而是需要一个字符串）
我尝试了isin，它有效，但只匹配整个单词

file.select($"COMMENTS",$"ID").filter($"COMMENTS".isin(List_ :_*)).show()

请帮助或请重新直接给我任何链接，因为我尝试了很多搜索
简单地说，我会用另一种方式：

val xs = Seq("good", "horrible", "hell") df.filter($"COMMENTS".rlike(xs.mkString("|"))
否则：

df.filter(xs.foldLeft(lit(false))((acc, x) => acc || $"COMMENTS".rlike(x)))

这是可行的，但在使用rlike时，像“预期”这样的词很少与像“意外”这样的词匹配。有没有其他方法来匹配整个单词？谢谢上面的样品。这适用于大多数情况！
df.filter(xs.foldLeft(lit(false))((acc, x) => acc || $"COMMENTS".rlike(x)))

[apache spark]相关文章推荐

Apache spark Spark的分布式存储 apache-spark

Apache spark 为什么我的Spark在群集中只使用两台计算机？ apache-spark cluster-computing

Apache spark Spark：在Spark应用程序中更新HashMap apache-spark

Apache spark 什么是格洛姆？。它与mapPartitions有何不同？ apache-spark

Apache spark 由于阶段故障，火花作业中止 apache-spark

Apache spark 限制apache spark作业运行持续时间 apache-spark

Apache spark 使用pyspark foreachpartition，但保留特定于分区的变量 apache-spark

Apache spark 如何覆盖使用SparkContext.addFile添加的文件？ apache-spark

Apache spark spark是否提供了一种生成64位随机salt的方法？ apache-spark pyspark

Apache spark 无法从工厂方法SparkRunner#fromOptions构造实例 apache-spark

Apache spark 如何在maven的Spark java程序中访问配置单元的元存储？ apache-spark hive

Apache spark Spark Cassandra连接器-输入提取大小 apache-spark cassandra

Apache spark UDF没有从哪些优化中受益？ apache-spark

Apache spark 如何使用pyspark填充日期到行之间的值？ apache-spark pyspark

Apache spark Spark sql在读取配置单元托管表时返回空数据帧 apache-spark hive pyspark

Apache spark Spark限制每个服务的执行者数量 apache-spark

Apache spark Spark无法从通过PutExceededException设置的检查点恢复异常：已超过碎片碎片的速率 apache-spark

Apache spark Pyspark-关闭多部分上载时出错-写入行时任务失败。-java.util.concurrent.CancellationException apache-spark amazon-s3 pyspark

Apache spark 如何定义Spark UI和驱动程序日志URL，以便它们直接命中我的代理而不是Spark主机 apache-spark nginx jupyter-notebook

Apache spark sparksql中的迭代广播连接 apache-spark

随机文章推荐

Common lisp lisp函数连接字符串列表 common-lisp

Common lisp 如何在CFFI中存储元对象的输出 common-lisp

Common lisp 何谓&；公共Lisp中的环境？ common-lisp

Common lisp 使用listp测试list，但是（listpnil）返回true common-lisp

Common lisp 我可以在受限环境中执行不受信任的公共Lisp代码吗？ common-lisp

Common lisp 是否可以使用宏更改参数的类型？ common-lisp

Common lisp CLX、stumpwm、McCLIM键盘布局在启动时锁定 common-lisp

Common lisp Clozure CL编译的可执行文件丢失某些命令行参数 common-lisp

Common lisp 如何在SBCL中设置终端流的charpos common-lisp

Common lisp 如何捕获cl异步包的TCP服务器中的套接字错误？ common-lisp

Common lisp 为什么会出现带有词法变量的警告 common-lisp

Common lisp 是否更改asdf中已编译文件的路径？ common-lisp

Common lisp 应用从函数列表中选择的函数 common-lisp

[scala]相关推荐

Scala 一些操作员问题
Scala

Scala 2.10-M1和2.9在Devel机器上同时运行？
Scala

&引用；“未捕获的例外情况”；在Scala应用程序日志中
Scala Exception Handling

Scala 使用继承时如何设计不可变的模型类
Scala

Scala 玩模板参数国际化
Scala Templates Playframework Internationalization Playframework 2.0

Scala 使用slick将会话与另一个API相结合
Scala

Scala 在处理索引时使用reactivemongo
Scala Playframework 2.0

获取方法'；s Scala中MethodMirror实例的函数类型
Scala Reflection

Scala有效集包含检测
Scala

Scala 如何使用单片眼镜'；什么是内置的法律实施来测试我自己的镜头？
Scala

Scala 如何真正测试后端并避免使用MockWS？
Scala Playframework

Scala 从文件系统读取文本文件时，Spark仍尝试连接到HDFS
Scala Apache Spark

Scala 获取所有子序列的列表
Scala Functional Programming

在Scala中，使用Try操作处理项目列表，并保留原始项目以报告可能的失败
Scala

Scala 在播放2.5.X时过滤器不工作
Scala Filter Playframework Playframework 2.0

Scala Sonarqube不'；不要从码头工人开始
Scala Docker Sonarqube

Scala 如何根据条件从RDD中的一系列记录中获取记录集？
Scala Apache Spark

Scala中的期货序列为空
Scala

Scala反序列化JSON与json4s问题
Scala

Scala 火花流滴复制品
Scala Hadoop Apache Spark

Scala泛型类型参数问题
Scala Generics

使用两列对数据帧进行Scala左连接（不区分大小写）
Scala Apache Spark Dataframe Join

Scala中的抽象参数类型
Scala

Scala 创建多个未来时播放框架操作响应延迟
Scala Playframework

Scala Play WS-client动态执行并行REST调用
Scala Playframework

Scala Play-如何在响应发出之前修改Cookie设置值？
Scala Cookies Playframework

Scala spark提交ClassNotFoundException或NoClassDef
Scala Apache Spark Intellij Idea Jar

Scala 第一个jar创建和执行问题
Scala

Scala 为什么使用列表时得到的结果与使用元组时不同？
Scala

将字符串的scala Seq转换为键值对
Scala Apache Spark

Tags

Cloud Foundry Visual Studio 2010 Pagination .net 4.0 Gstreamer Scala .htaccess Uiview Gremlin Playframework Networking Nativescript Reference Smalltalk Kubernetes Asynchronous Facebook Graph Api Sharepoint 2010 Tfs Composer Php Snmp Installation Gridview Google Apps Script Curl Javascript Calendar Sails.js Jvm Llvm Apache2 Visual C++ Deep Learning Hibernate Smtp Jwt Url Process Java 8 Ibm Cloud Google Cloud Dataflow Azure Devops Mediawiki Office365 Jsp Asp.net Core Grid Spring Mvc Bison User Interface Vim Datetime Keyboard Android Ndk Antlr4 Phantomjs Usb Data Binding Log4net Paypal X86 Ecmascript 6 Appium Outlook Jqgrid Openlayers 3 Image Processing Import Dart Mapbox Tableau Api Liferay Mdx If Statement Gps Sqlite Mysql Dynamic Maven 2 Applescript Terraform Razor Swiftui Binding Julia Itext Windows 7 Apache Camel Microsoft Graph Api Exchange Server Operating System Azure Active Directory Scroll Swing Windows Phone 8.1 Discord Windows 8 Opencl Sencha Touch 2 Oauth 2.0 Continuous Integration Lambda Internationalization Google Cloud Platform Web Kentico Wpf Cloud Phpstorm Ember.js Linq Vb6 Passwords Jenkins Sublimetext3 Ssrs 2008 Localization Cordova Windows Phone Gatsby Module Visual Studio 2012 Gruntjs Angular Material Ruby On Rails 3.1 Jquery Mobile Github Navigation Lisp Cors Debian Wolfram Mathematica Actionscript Xcode4 Scrapy Sql Server Sip Timer Mvvm Iphone Ignite Facebook Colors Drools Database Design Opencv Amazon Redshift Redux Gulp Ruby Opengl Url Rewriting Notifications Debugging Object Express Odata Push Notification Twitter Shiny Protractor Arm Shopify Linker Keras Monitoring Crystal Reports Ibm Mq Ftp Svn Azure Functions Clojure Aframe Robotframework Automated Tests Docusignapi Hadoop Api Plsql Fluent Nhibernate Graphql Internet Explorer 8 Vector Telegram Typescript Dynamics Crm Speech Recognition Winapi Neo4j Wcf Tinymce Laravel 4 Optimization Antlr Bootstrap 4 System Verilog Sql Server 2008 R2 Spring Security Seo Emacs Parsing

Copyright © 2024. All Rights Reserved by - Fatal编程技术网