Python 我需要从数据框中删除表情符号
我有一个由csv文件中的推文组成的Python 我需要从数据框中删除表情符号,python,text,emoji,remove,Python,Text,Emoji,Remove,我有一个由csv文件中的推文组成的df。我正在尝试删除表情符号和符号中的所有内容,但我不知道如何将其应用于超过一个字符串的文本,以便删除所有推文行中的表情符号 例如,我在我的df中有一行文本: “@evisbadgirl@DefectiveTwinKP现在一般来说没有太多这样的东西,所以,仅仅因为我没有跳来跳去,对谈论你孩子的名字感到兴奋,并不意味着我不在乎或者不想做,好吗?我只是累了,我不想做所有的事情,你没有说你-” 我需要删除和所有其他类似的文本组 我在网上看到的所有内容都只是展示了如何对
df
。我正在尝试删除表情符号和
符号中的所有内容,但我不知道如何将其应用于超过一个字符串的文本,以便删除所有推文行中的表情符号
例如,我在我的df
中有一行文本:“@evisbadgirl@DefectiveTwinKP现在一般来说没有太多这样的东西,所以,仅仅因为我没有跳来跳去,对谈论你孩子的名字感到兴奋,并不意味着我不在乎或者不想做,好吗?我只是累了,我不想做所有的事情,你没有说你-”
我需要删除
和所有其他类似的文本组
我在网上看到的所有内容都只是展示了如何对一段文本执行此操作,但我如何将此应用于完整的数据帧
我尝试了以下方法,但没有成功:
def remove_emoji(string):
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
u"\U00002702-\U000027B0"
u"\U000024C2-\U0001F251"
"]+", flags=re.UNICODE)
return emoji_pattern.sub(r'', string)
text = df['text']
df.apply(remove_emoji(df['text'])
您需要对要转换的特定列使用“应用”函数。
此外,不需要每次调用函数时都编译正则表达式,只需编译一次即可
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
u"\U00002702-\U000027B0"
u"\U000024C2-\U0001F251"
"]+", flags=re.UNICODE)
def remove_emoji(string):
return emoji_pattern.sub(r'', string)
df['text'] = df['text'].apply(remove_emoji) # Apply the remove_emoji function to each row in the text column
这能回答你的问题吗?13--->14 df['Tweet Text']=df.Text.apply(remove_emoji)/usr/local/lib/python3.6/dist-packages/pandas/core/generic.py in uuu getattr_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu->5136返回对象。\uuuuu getattribute\uuuuuuuuu(self,name)5137 5138 def\uuuuuuu setattr\uuuuuuuuuu(self,name:str,value)->None:AttributeError:'DataFrame'对象没有属性'text'@rpa1111现在试试,我将“df.text”改为“df['text']”