Python 一个简单的蜘蛛问题

Python 一个简单的蜘蛛问题,python,web-crawler,Python,Web Crawler,我是一个新手,试图通过使用Scrapy来完成这个简单的任务,但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具(使用Python)执行此操作,我正在征求您的建议。多谢各位 我想 从一个页面开始,该页面列出姓氏以a开头的律师的bios:initial_url=www.example.com/attorneys/List.aspx?LastName=a 从LastName=A提取到实际bios的链接:/BioLinks/ 访问每个/BioLinks/提取每个律师的学校信息 我能够提取/Bio

我是一个新手,试图通过使用Scrapy来完成这个简单的任务,但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具(使用Python)执行此操作,我正在征求您的建议。多谢各位

我想

  • 从一个页面开始,该页面列出姓氏以a开头的律师的bios:initial_url=www.example.com/attorneys/List.aspx?LastName=a

  • 从LastName=A提取到实际bios的链接:/BioLinks/

  • 访问每个/BioLinks/提取每个律师的学校信息

  • 我能够提取/BioLinks/和学校信息,但我无法从初始url转到bio页面

    如果你认为这样做是错误的,那么,你将如何实现这个目标


    非常感谢。

    我不确定我是否完全理解你的要求,但也许你需要获得每个简历的绝对URL并检索该页面的源代码:

    import urllib2
    bio_page = urllib.urlopen(bio_url).read()
    

    然后使用正则表达式或其他解析来获取律师法学院。

    是的,我会试试这个,但我不需要蜘蛛来获取我要扫描的140k bios的URL吗?那怎么办?