如何使用spark scala删除rdd中的unicode？_Scala_Apache Spark_Apache Spark Sql_Spark Dataframe - Fatal编程技术网

如何使用spark scala删除rdd中的unicode？

scala apache-spark

如何使用spark scala删除rdd中的unicode？,scala,apache-spark,apache-spark-sql,spark-dataframe,Scala,Apache Spark,Apache Spark Sql,Spark Dataframe,数据样本： 1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png 如何在Spark中使用Scala删除Unicode并将字符串映射到标准字符串格式注意：我确实提到了PySpark解决方案，但我正在寻找基于Scala的解决方案您可以从org.apache.commons.lang3导入StringUtils类并使用然后在RDD上执行映射： rdd.map

数据样本：

1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png

如何在Spark中使用Scala删除Unicode并将字符串映射到标准字符串格式

注意：我确实提到了PySpark解决方案，但我正在寻找基于Scala的解决方案

您可以从

org.apache.commons.lang3

导入

StringUtils

类并使用

然后在RDD上执行映射：

rdd.map(word => StringUtils.stripAccents(word))

您可以根据所使用的内容（maven、sbt等）获得依赖关系

下面带有RDD[String]的快速示例

val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") ) val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
罗尔德

Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
纽尔德

This is a funky String This is another funky String

[apache spark]相关文章推荐

Apache spark 如何在spark shell中设置spark.akka.frameSize？ apache-spark

Apache spark 多数据源的SparkStreaming apache-spark

Apache spark 为什么我的spark流媒体工作中有这么多任务 apache-spark

Apache spark Spark mllib对数据进行洗牌 apache-spark

Apache spark sparksql中的多列分区 apache-spark

Apache spark 避免Spark窗口函数中单个分区模式的性能影响 apache-spark pyspark

Apache spark 在磁盘上保留RDD的情况下，如何从执行器丢失中恢复Spark in-Warn apache-spark

Apache spark 如何为配置单元表中的数据集创建架构？ apache-spark pyspark

Apache spark 具有嵌套值/复杂数据类型的Order Spark SQL数据帧 apache-spark

Apache spark Spark XML API-标记之间的文本 apache-spark

Apache spark 火花存储水平“；无”；vs"；内存“仅限U”； apache-spark

Apache spark 连接后处理Spark中的不良记录 apache-spark

Apache spark ApachePySpark-读取目录而不扫描文件 apache-spark pyspark google-cloud-storage

Apache spark Pyspark CI CD管道 apache-spark pyspark continuous-integration

Apache spark 欧几里得距离的结构数组到向量的火花转换 apache-spark

Apache spark 什么样的数据，我们可以通过Spark处理？？结构化/非结构化/半结构化？ apache-spark

Apache spark Spark GraphFrame大型数据集和内存问题 apache-spark pyspark

Apache spark 如何删除数据集列中的特殊字符'；名称 apache-spark

Apache spark 在spark数据帧之间的联接中包含列时出错 apache-spark pyspark

Apache spark spark sql为求和函数提供列表参数 apache-spark pyspark

随机文章推荐

在SAP脚本中，如何在新页面中添加分页符或打印记录 sap

SAP业务对象企业席信息查看参考书我正在寻找关于SAP业务对象的书籍：企业席信息网报告应用程序，你能给我推荐一些初学者/中级用户最好的书吗？我已经找到了一些，但我不确定它们是否适合我。作为前端用户，我已经使用该应用程序两年了，但需要提高我的技能，以便我能够创建报告，并对该应用程序有透彻的了解。 sap

Sap BI4.1 WebI:#维度对象中的多值 sap

Sap 在另一个里面运行sum sap

Python 3.6与SAP的集成 sap

[scala]相关推荐

什么'；在Scala中创建动态增长数组的最佳方法是什么？
Scala

Scala-简单地将2D数组写入屏幕的最简单2D图形？
Scala Graphics

Scala-akka-Actor路径
Scala Akka

Scala 对函数的重复调用，直到它返回无为止
Scala Functional Programming

Scala 对sbt子项目的聚合分析
Scala Sbt

在scala中传递参数化函数
Scala Functional Programming

Scala 为什么这个LR代码在spark上运行得太慢？
Scala Hadoop Machine Learning Apache Spark

Scala 带超时的'Future'排序
Scala

Scala 如何打印RDD的内容？
Scala Apache Spark

Scala 使用枚举作为类型参数
Scala

Scala 在程序执行过程中引入RepL控制台的干净解决方案
Scala Sbt

Scala中返回类型的分派
Scala

Scala-lambda表达式中的类型推断问题
Scala Lambda

Scala 如何在二叉树中插入新节点？
Scala

编译scala时，对象hbase不是包org.apache.hadoop的成员
Scala Hadoop Hbase

Scala 如何依赖于"；“当前”；配置
Scala Sbt

Scala 独生子女玩什么游戏！框架2.4是否提供开箱即用？
Scala Playframework

Scala 如何进行单元测试/模拟ElasticSearch
Scala Unit Testing

Scala 参考复合主键
Scala

Scala 如何在最新版本的Cats中使用笛卡尔积？
Scala

Scala将对象的写入集合写入HttpResponse
Scala Playframework

Scala：仅在列表的一个成员上运行函数
Scala List

Scala 带spark库的Intellij中的Intellisense
Scala Apache Spark Intellij Idea

Scala 用于多目标的Sbt组装
Scala Sbt

我们有两个列表需要使用spark scala过滤第二个列表和第一个列表
Scala Apache Spark

如何使用scala将具有列表值的case类展平到另一个case类
Scala

在Scala中生成文件名的函数方法
Scala Random Functional Programming

如何使用Guice在Scala中进行方法/字段注入？
Scala Dependency Injection Playframework

Scala 如何在创建过程中处理异常？
Scala Akka

如何将IN子句与Spark BigQuery连接器（Scala）一起使用
Scala Apache Spark Google Bigquery

Tags

Swiftui Multithreading Angular Material Airflow Tags Java Maven Autocomplete Linux Kernel Db2 Activemq Django Models Appium Path Uiview Wix Hash Jdbc Libgdx Firefox Shiny Printing Grails Spring Html Neural Network Iphone Jquery Plugins Internet Explorer Woocommerce Recursion Sphinx Pyspark Stream Visual Studio Code Orchardcms Xquery Google Colaboratory Unix Maven 2 Intellij Idea Linkedin Symfony Gcc Silverlight 4.0 Sass Typo3 Winapi Virtual Machine Caching Sharepoint 2010 Pdf Lua Text Amazon Dynamodb Wcf Monitoring Mule Windows 7 Netbeans Python Xcode Google Compute Engine Struct Browser Omnet++ Nlp Apache Storm Liferay Project Management Flutter Azure Data Factory Symfony1 Ipython Javafx 2 Checkbox Numpy Menu Ocaml Xna Regex Protocol Buffers Navigation Mapreduce Io Jms Arduino Sqlalchemy React Native Cakephp Couchdb Glassfish Paypal Drop Down Menu Markdown Dll List Spring Integration Ldap Safari Influxdb Autohotkey Google Cloud Dataflow Gis Facebook Graph Api Workflow Floating Point Android Common Lisp Dart Sed Jpa Jsf Google Cloud Storage Post Visual Studio 2017 Kibana 3d Cmd Oop Aem Ide Geolocation Automated Tests Redirect Amazon Web Services Mono Parameters Django Rest Framework Arrays Svg Interface Apache Zookeeper Layout Phpstorm Docker Compose Compiler Errors Modelica Sms Ssh Exception Pine Script Exchange Server Ip Terminal Next.js Clearcase Openshift Mongodb If Statement Camera Spotify Tridion Coq Bison Angularjs Perforce Telegram Karate Core Data Active Directory Filter Sockets Pointers Google Calendar Api Google Cloud Platform Data Structures Asterisk C++ Unicode Jquery Jersey Colors Ios7 Ssis Unity3d Doctrine E Commerce Android Studio Seo Msbuild Open Source Ruby Coffeescript Azure Service Servlets Hadoop Passwords Linq Jquery Ui Syntax Ibm Cloud Amazon Ec2 Coldfusion Pip Yii Stm32 Ravendb Youtube Anaconda

Copyright © 2024. All Rights Reserved by - Fatal编程技术网