数据框列中的过滤文本(python/Pandas)

数据框列中的过滤文本(python/Pandas),python,pandas,dataframe,text,filter,Python,Pandas,Dataframe,Text,Filter,有人知道如何从python的文本列中删除这种“奇怪的”字符吗 最简单的方法是使用lambda函数: df.text.apply(lambda x: ''.join(filter(str.isascii,x))) 对于较大的数据集,建议使用正则表达式,例如re.sub()。在文本列中应用正则表达式。此正则表达式将从文本中删除所有非ASCII字符 for i in range(len(data['Text'])): Sent=re.sub(r'[^\x00-\x7F]', ' ',

有人知道如何从python的文本列中删除这种“奇怪的”字符吗


最简单的方法是使用lambda函数:

df.text.apply(lambda x: ''.join(filter(str.isascii,x)))

对于较大的数据集,建议使用正则表达式,例如re.sub()。

在文本列中应用正则表达式。此正则表达式将从文本中删除所有非ASCII字符

for i in range(len(data['Text'])): 
     Sent=re.sub(r'[^\x00-\x7F]', ' ', data['Text'].iloc[i])
     data['Text'].iloc[i]=Sent
for i in range(len(data['Text'])): 
     Sent=re.sub(r'[^\x00-\x7F]', ' ', data['Text'].iloc[i])
     data['Text'].iloc[i]=Sent