如何替换str.replace()<;br>;或'=';用Python?
我很难摆脱从某个网页上抓取的文本中的所有额外HTML标记,但是,Python中的如何替换str.replace()<;br>;或'=';用Python?,python,Python,我很难摆脱从某个网页上抓取的文本中的所有额外HTML标记,但是,Python中的str.replace()似乎不适用于和=等目标,而其他标记,如将被成功替换 这是我的密码 str(txt).replace('<li>', '') .replace('</li>', '') .replace('<ol>', '') .replace('</ol>', '') .replace('<
str.replace()
似乎不适用于
和=
等目标,而其他标记,如
将被成功替换
这是我的密码
str(txt).replace('<li>', '')
.replace('</li>', '')
.replace('<ol>', '')
.replace('</ol>', '')
.replace('<br>', '')
.replace('=', '')
str(txt).替换(“”,“”)
.替换(“ ”,“”)
.替换('','')
.替换('','')
.替换(“
”,“”)
.替换('=','')
如果您有任何建议,我们将不胜感激。您可以使用此页面获取文本:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_source)
text = soup.get_text()
BeautifulSoup
解析html,并具有一个简单的内置函数来获取文本。试试看
与:
x=str(txt)
'.join(x.split(')、x.split(' )、x.split(''')、x.split('')、x.split('='))
可能重复感谢您的快速回复。我要试试看!
''.join(x.split('<li>'),x.split('</li>'),x.split('<ol>'),x.split('</ol>'),x.split('<br>'),x.split('='))