如何使用spark scala删除rdd中的unicode?

如何使用spark scala删除rdd中的unicode?,scala,apache-spark,apache-spark-sql,spark-dataframe,Scala,Apache Spark,Apache Spark Sql,Spark Dataframe,数据样本: 1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png 如何在Spark中使用Scala删除Unicode并将字符串映射到标准字符串格式 注意:我确实提到了PySpark解决方案,但我正在寻找基于Scala的解决方案 您可以从org.apache.commons.lang3导入StringUtils类并使用 然后在RDD上执行映射: rdd.map

数据样本:

1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png
如何在Spark中使用Scala删除Unicode并将字符串映射到标准字符串格式


注意:我确实提到了PySpark解决方案,但我正在寻找基于Scala的解决方案

您可以从
org.apache.commons.lang3
导入
StringUtils
类并使用

然后在RDD上执行映射:

rdd.map(word => StringUtils.stripAccents(word))
您可以根据所使用的内容(maven、sbt等)获得依赖关系

下面带有RDD[String]的快速示例

val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
罗尔德

Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
纽尔德

This is a funky String
This is another funky String