用python清理文本
我想删除所有带数字的单词,并使所有单词都小写。 代码如下:用python清理文本,python,Python,我想删除所有带数字的单词,并使所有单词都小写。 代码如下: #remove words with numbers import re lower_alpha = lambda x: re.sub(r\"\"\"\\w*\\d\\w*\"\"\", ' ', x.lower()) data['reviews'] = data.reviews.map(lower_alpha) data.head() 但错误如下所示: 下α=λx:re.sub(r\“\”\“\w*\d\w*\”,“”, x、 下(
#remove words with numbers
import re
lower_alpha = lambda x: re.sub(r\"\"\"\\w*\\d\\w*\"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(lower_alpha)
data.head()
但错误如下所示:
下α=λx:re.sub(r\“\”\“\w*\d\w*\”,“”,
x、 下()^
SyntaxError:行连续字符后出现意外字符
文本中有一些无用的,我使用以下代码将其删除:
#remove <br>
remove_br = lambda x: re.sub(r\"\"\" br \"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(remove_br)
data.head()
#删除
删除\u br=lambda x:re.sub(r\“\”\“br\”\“\”,'',x.lower())
data['reviews']=data.reviews.map(删除\u br)
数据标题()
错误显示:
删除\u br=lambda x:re.sub(r\“\”\“br\”\“\”,'',x.lower())^
SyntaxError:行连续字符后出现意外字符
几乎和前一个一样。有没有人能帮我找出这些东西的毛病
dataframe是一个excel工作表,类似于:
用户id星评论
- 用户id星评论
- xxx 5 xxxxx
- xxx 5 xxxxx
- xxx 5 xxxxx
- xxx 4 xxxxx
- 李>
r'\“\”\\w*\\d\\w*\“\“\”
(如果它与您的逻辑匹配)r\“\”。
是一个语法错误。您需要首先从引号开始:r'\“\”。
可能重复的请删除最后一个反斜杠,否则将导致EOL
.Thx以供指出。不确定从逻辑角度看它意味着什么,只是用单引号括起来