数据框列中的过滤文本(python/Pandas)
有人知道如何从python的文本列中删除这种“奇怪的”字符吗数据框列中的过滤文本(python/Pandas),python,pandas,dataframe,text,filter,Python,Pandas,Dataframe,Text,Filter,有人知道如何从python的文本列中删除这种“奇怪的”字符吗 最简单的方法是使用lambda函数: df.text.apply(lambda x: ''.join(filter(str.isascii,x))) 对于较大的数据集,建议使用正则表达式,例如re.sub()。在文本列中应用正则表达式。此正则表达式将从文本中删除所有非ASCII字符 for i in range(len(data['Text'])): Sent=re.sub(r'[^\x00-\x7F]', ' ',
最简单的方法是使用lambda函数:
df.text.apply(lambda x: ''.join(filter(str.isascii,x)))
对于较大的数据集,建议使用正则表达式,例如re.sub()。在文本列中应用正则表达式。此正则表达式将从文本中删除所有非ASCII字符
for i in range(len(data['Text'])):
Sent=re.sub(r'[^\x00-\x7F]', ' ', data['Text'].iloc[i])
data['Text'].iloc[i]=Sent
for i in range(len(data['Text'])):
Sent=re.sub(r'[^\x00-\x7F]', ' ', data['Text'].iloc[i])
data['Text'].iloc[i]=Sent