Python 删除所有<;a>;标签
我抓取了一个包含URL的容器,例如:Python 删除所有<;a>;标签,python,python-2.7,beautifulsoup,Python,Python 2.7,Beautifulsoup,我抓取了一个包含URL的容器,例如: <a href="url">text</a> 有可能吗?你可以用漂白剂来做 >进口漂白剂 >>>bleach.clean('一个邪恶的()例子') u'an scriptevil()/脚本示例' >>>漂白剂http://example.com url') 乌安网址 >>>漂白。脱钩('a') u'a链接' 请给出输入和所需输出的示例好吗?不工作。。。它可能适用于一个链接,但它无法自动找到所有的链接并删除它们。。。但它确实很好的l
<a href="url">text</a>
有可能吗?你可以用漂白剂来做
>进口漂白剂
>>>bleach.clean('一个邪恶的()例子')
u'an scriptevil()/脚本示例'
>>>漂白剂http://example.com url')
乌安网址
>>>漂白。脱钩('a')
u'a链接'
请给出输入和所需输出的示例好吗?不工作。。。它可能适用于一个链接,但它无法自动找到所有的链接并删除它们。。。但它确实很好的librarybleach在html上工作。所以你应该传递它,而不是汤对象。它也适用于整个文本文档。我每天都在使用它,并且有它的生产机器,它可以在一次传递中将文档与几十个链接“脱钩”。
import urllib2, sys
from bs4 import BeautifulSoup
site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)
>>> import bleach
>>> bleach.clean('an <script>evil()</script> example')
u'an <script>evil()</script> example'
>>> bleach.linkify('an http://example.com url')
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url
>>> bleach.delinkify('a <a href="http://ex.mp">link</a>')
u'a link'
soup = BeautifulSoup(page)
anchors = soup.findAll('a')
for anchor in anchors:
anchor.replaceWithChildren()