Pyspark 使用sparksql检测列中的垃圾字符

Pyspark 使用sparksql检测列中的垃圾字符,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我有一个要求,即我有一个表,其中一列可能包含非ascii字符。 我必须检测(而不是替换)列中是否有任何包含非ascii字符的值。如果列值包含ascii和非ascii值的组合,如“abcקו”,则应检测是否存在垃圾字符。 我必须使用sparksql语句来完成这项工作。可以这样做吗?您可以使用正则表达式提取非ascii字符。你可以在这些帖子上找到正则表达式:和

我有一个要求,即我有一个表,其中一列可能包含非ascii字符。 我必须检测(而不是替换)列中是否有任何包含非ascii字符的值。如果列值包含ascii和非ascii值的组合,如“abcקו”,则应检测是否存在垃圾字符。
我必须使用sparksql语句来完成这项工作。可以这样做吗?

您可以使用正则表达式提取非ascii字符。你可以在这些帖子上找到正则表达式:和