Python 一个简单的蜘蛛问题
我是一个新手,试图通过使用Scrapy来完成这个简单的任务,但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具(使用Python)执行此操作,我正在征求您的建议。多谢各位 我想Python 一个简单的蜘蛛问题,python,web-crawler,Python,Web Crawler,我是一个新手,试图通过使用Scrapy来完成这个简单的任务,但迄今为止运气不佳。关于如何使用Scrapy或任何其他工具(使用Python)执行此操作,我正在征求您的建议。多谢各位 我想 从一个页面开始,该页面列出姓氏以a开头的律师的bios:initial_url=www.example.com/attorneys/List.aspx?LastName=a 从LastName=A提取到实际bios的链接:/BioLinks/ 访问每个/BioLinks/提取每个律师的学校信息 我能够提取/Bio
非常感谢。我不确定我是否完全理解你的要求,但也许你需要获得每个简历的绝对URL并检索该页面的源代码:
import urllib2
bio_page = urllib.urlopen(bio_url).read()
然后使用正则表达式或其他解析来获取律师法学院。是的,我会试试这个,但我不需要蜘蛛来获取我要扫描的140k bios的URL吗?那怎么办?