从pyspark dataframe列中删除HTML标记

从pyspark dataframe列中删除HTML标记,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在将数据从json文件加载到pyspark dataframe,在其中一个文本列中,我有HTML标记 例如text<text> text text\ntext 有没有办法从本专栏中删除HTML标记?我知道可以使用pandas来完成,但我不想将所有数据帧转换为pyspark,然后再转换回来,因为这需要很多时间

我正在将数据从json文件加载到pyspark dataframe,在其中一个文本列中,我有HTML标记 例如text<text> text text\ntext

有没有办法从本专栏中删除HTML标记?我知道可以使用pandas来完成,但我不想将所有数据帧转换为pyspark,然后再转换回来,因为这需要很多时间