用python清理文本

用python清理文本,python,Python,我想删除所有带数字的单词,并使所有单词都小写。 代码如下: #remove words with numbers import re lower_alpha = lambda x: re.sub(r\"\"\"\\w*\\d\\w*\"\"\", ' ', x.lower()) data['reviews'] = data.reviews.map(lower_alpha) data.head() 但错误如下所示: 下α=λx:re.sub(r\“\”\“\w*\d\w*\”,“”, x、 下(

我想删除所有带数字的单词,并使所有单词都小写。 代码如下:

#remove words with numbers
import re
lower_alpha = lambda x: re.sub(r\"\"\"\\w*\\d\\w*\"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(lower_alpha)
data.head()
但错误如下所示:

下α=λx:re.sub(r\“\”\“\w*\d\w*\”,“”, x、 下()^

SyntaxError:行连续字符后出现意外字符

文本中有一些无用的
,我使用以下代码将其删除:

#remove <br>    
remove_br = lambda x: re.sub(r\"\"\" br \"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(remove_br)
data.head()
#删除
删除\u br=lambda x:re.sub(r\“\”\“br\”\“\”,'',x.lower()) data['reviews']=data.reviews.map(删除\u br) 数据标题()
错误显示:

删除\u br=lambda x:re.sub(r\“\”\“br\”\“\”,'',x.lower())^ SyntaxError:行连续字符后出现意外字符

几乎和前一个一样。有没有人能帮我找出这些东西的毛病

dataframe是一个excel工作表,类似于: 用户id星评论

  • 用户id星评论
  • xxx 5 xxxxx
  • xxx 5 xxxxx
  • xxx 5 xxxxx
  • xxx 4 xxxxx

您的打字错误是以特殊方式处理的。如果您使用的是原始字符串,只需使用
r'\“\”\\w*\\d\\w*\“\“\”
(如果它与您的逻辑匹配)

r\“\”。
是一个
语法错误
。您需要首先从引号开始:
r'\“\”。
可能重复的请删除最后一个反斜杠,否则将导致
EOL
.Thx以供指出。不确定从逻辑角度看它意味着什么,只是用单引号括起来