Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/dart/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark 使用sparksql检测列中的垃圾字符_Pyspark_Apache Spark Sql - Fatal编程技术网

Pyspark 使用sparksql检测列中的垃圾字符

Pyspark 使用sparksql检测列中的垃圾字符,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我有一个要求,即我有一个表,其中一列可能包含非ascii字符。 我必须检测(而不是替换)列中是否有任何包含非ascii字符的值。如果列值包含ascii和非ascii值的组合,如“abcקו”,则应检测是否存在垃圾字符。 我必须使用sparksql语句来完成这项工作。可以这样做吗?您可以使用正则表达式提取非ascii字符。你可以在这些帖子上找到正则表达式:和

我有一个要求,即我有一个表,其中一列可能包含非ascii字符。 我必须检测(而不是替换)列中是否有任何包含非ascii字符的值。如果列值包含ascii和非ascii值的组合,如“abcקו”,则应检测是否存在垃圾字符。
我必须使用sparksql语句来完成这项工作。可以这样做吗?

您可以使用正则表达式提取非ascii字符。你可以在这些帖子上找到正则表达式:和