清除非ASCII python数据
我有一个函数,可以根据ASCII codigp清除数据框中的文本,如果我有另一种语言的数据,例如俄语或汉语,如何才能不删除它们清除非ASCII python数据,python,dataframe,ascii,data-cleaning,nsregularexpression,Python,Dataframe,Ascii,Data Cleaning,Nsregularexpression,我有一个函数,可以根据ASCII codigp清除数据框中的文本,如果我有另一种语言的数据,例如俄语或汉语,如何才能不删除它们 def clean_text(text, pattern="[^ a-zA-Z0-9]"): cleaned_text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore') cleaned_text = re.sub(pattern, " ",
def clean_text(text, pattern="[^ a-zA-Z0-9]"):
cleaned_text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore')
cleaned_text = re.sub(pattern, " ", cleaned_text.decode("utf-8"), flags=re.UNICODE)
cleaned_text = u' '.join(cleaned_text.lower().strip().split())
return cleaned_text
原始df
index name
0 水柳仙
1 Dean,Martín
2 Doris Day
当应用我得到的函数时
index name
0
1 dean martin
2 doris day
我想去
index name
0 水柳仙
1 dean martin
2 doris day
那么,除了删除非ASCII字符,您还想对它们做什么呢?我想清除特殊字符,但因为我有其他语言的数据它会删除它,我不希望它从其他语言删除数据。如果您不想删除非ASCII字符,为什么要使用
re.sub
删除它们?除了删除它们之外,“清除特殊字符”意味着什么?他们该怎么办?你想保留汉字,但你也说你想去掉重音?但是重音字符在非英语语言的名称中是有效的!