Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/xamarin/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 删除所有<;a>;标签_Python_Python 2.7_Beautifulsoup - Fatal编程技术网

Python 删除所有<;a>;标签

Python 删除所有<;a>;标签,python,python-2.7,beautifulsoup,Python,Python 2.7,Beautifulsoup,我抓取了一个包含URL的容器,例如: <a href="url">text</a> 有可能吗?你可以用漂白剂来做 >进口漂白剂 >>>bleach.clean('一个邪恶的()例子') u'an scriptevil()/脚本示例' >>>漂白剂http://example.com url') 乌安网址 >>>漂白。脱钩('a') u'a链接' 请给出输入和所需输出的示例好吗?不工作。。。它可能适用于一个链接,但它无法自动找到所有的链接并删除它们。。。但它确实很好的l

我抓取了一个包含URL的容器,例如:

<a href="url">text</a>

有可能吗?

你可以用漂白剂来做

>进口漂白剂
>>>bleach.clean('一个邪恶的()例子')
u'an scriptevil()/脚本示例'
>>>漂白剂http://example.com url')
乌安网址
>>>漂白。脱钩('a')
u'a链接'

请给出输入和所需输出的示例好吗?不工作。。。它可能适用于一个链接,但它无法自动找到所有的链接并删除它们。。。但它确实很好的librarybleach在html上工作。所以你应该传递它,而不是汤对象。它也适用于整个文本文档。我每天都在使用它,并且有它的生产机器,它可以在一次传递中将文档与几十个链接“脱钩”。
import urllib2, sys
from bs4 import BeautifulSoup

site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)
>>> import bleach

>>> bleach.clean('an <script>evil()</script> example')
u'an &lt;script&gt;evil()&lt;/script&gt; example'

>>> bleach.linkify('an http://example.com url')
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url

>>> bleach.delinkify('a <a href="http://ex.mp">link</a>')
u'a link'
soup = BeautifulSoup(page)
anchors = soup.findAll('a')
for anchor in anchors:
  anchor.replaceWithChildren()