Python 一个简单的蜘蛛问题_Python_Web Crawler

Python 一个简单的蜘蛛问题

python web-crawler

Python 一个简单的蜘蛛问题,python,web-crawler,Python,Web Crawler,我是一个新手，试图通过使用Scrapy来完成这个简单的任务，但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具（使用Python）执行此操作，我正在征求您的建议。多谢各位我想从一个页面开始，该页面列出姓氏以a开头的律师的bios：initial_url=www.example.com/attorneys/List.aspx？LastName=a 从LastName=A提取到实际bios的链接：/BioLinks/ 访问每个/BioLinks/提取每个律师的学校信息我能够提取/Bio

我是一个新手，试图通过使用Scrapy来完成这个简单的任务，但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具（使用Python）执行此操作，我正在征求您的建议。多谢各位

我想

从一个页面开始，该页面列出姓氏以a开头的律师的bios：initial_url=www.example.com/attorneys/List.aspx？LastName=a

从LastName=A提取到实际bios的链接：/BioLinks/

访问每个/BioLinks/提取每个律师的学校信息

我能够提取/BioLinks/和学校信息，但我无法从初始url转到bio页面

如果你认为这样做是错误的，那么，你将如何实现这个目标

非常感谢。

我不确定我是否完全理解你的要求，但也许你需要获得每个简历的绝对URL并检索该页面的源代码：

import urllib2
bio_page = urllib.urlopen(bio_url).read()

然后使用正则表达式或其他解析来获取律师法学院。

是的，我会试试这个，但我不需要蜘蛛来获取我要扫描的140k bios的URL吗？那怎么办？