Python mechanize可以迭代一个网站的所有网页
我想迭代一个网站的所有网页。我在这里尝试使用mechanize,但它只查看网站的主要链接。我应该如何修改它Python mechanize可以迭代一个网站的所有网页,python,mechanize,Python,Mechanize,我想迭代一个网站的所有网页。我在这里尝试使用mechanize,但它只查看网站的主要链接。我应该如何修改它 import mechanize import lxml.html br = mechanize.Browser() response = br.open("http://www.apple.com") for link in br.links(): print link.url br.follow_link(link) # takes EITHER Link ins
import mechanize
import lxml.html
br = mechanize.Browser()
response = br.open("http://www.apple.com")
for link in br.links():
print link.url
br.follow_link(link) # takes EITHER Link instance OR keyword args
print br
br.back()
这是新代码:
import mechanize
import lxml.html
links = set()
visited_links = set()
def visit(br, url):
response = br.open(url)
links = br.links()
for link in links:
if not link.url in links:
visited_links.add(link.url)
visit(br, link)
print link.url
if __name__ == '__main__':
br = mechanize.Browser()
visit(br,"http://www.apple.com")
请注意,您希望对每个链接执行的操作与对初始链接执行的操作相同:获取页面并访问每个链接。你可以像这样递归地解决这个问题
def visit(br, url):
response = br.open(url)
links = br.links()
for link in links:
print link.url
visit(br, link)
在实践中会变得更加复杂:
集
http://www.apple.com/index.html
和'`是否相等?您可能需要对链接进行某种“规范化”可见页面,这样两个作业就不会访问同一页面
你为什么使用机械化?如果你想用Y来做X,只需要问一下如何做X。因为Y可能不是最好的解决方案。我想我会使用beautifulsoup,但我发现mechanize比beautifulsoup快。我也考虑过创建一个爬行器,但不知道如何使用mechanize(或类似的东西)可能是聪明的,而不是编写自己的爬行器。为了更好地解释原因,请参见我根据您的建议添加了一个新代码。它抛出一些错误,如:TypeError:预期的字符串或缓冲区