(\xa0)和(<;a)。*(>;).*(<;/a>;)的Python正则表达式
在阅读一些预处理文本数据的代码时,遇到了这些正则表达式,我很难理解它们的含义(\xa0)和(<;a)。*(>;).*(<;/a>;)的Python正则表达式,python,regex,Python,Regex,在阅读一些预处理文本数据的代码时,遇到了这些正则表达式,我很难理解它们的含义 ReviewText = ReviewText.str.replace('(<a).*(>).*(</a>)', '') ReviewText = ReviewText.str.replace('(\xa0)', ' ') ReviewText=ReviewText.str.replace(“()*”,“) ReviewText=ReviewText.str.replace(“(\xa0
ReviewText = ReviewText.str.replace('(<a).*(>).*(</a>)', '')
ReviewText = ReviewText.str.replace('(\xa0)', ' ')
ReviewText=ReviewText.str.replace(“()*”,“)
ReviewText=ReviewText.str.replace(“(\xa0)”,”
好吧,看起来他们正在使用regexp玩HTML。一般来说,人们不赞成这样做,但考虑到您正在使用,而不是开发,我们现在将忽略这个问题
看起来第一行需要:
<a href="https://www.w3schools.com">Visit W3Schools.com!</a>
把它压制成零
第二个将获取显示的字符串并将其更改为空格
正如上面提到的,您需要regexp和input来实际处理它。一旦您拥有了regexp和一些输入,我建议您使用regexp检查器来处理输入。类似于此处(或等效项):您对这个正则表达式执行操作的字符串是什么?第一个看起来像是要从某些html中删除所有超链接标记。@U10,它应用于文本数据(产品评论)