Python调用多个URL并从中提取数据
我正试图写一个脚本来调用一个网页http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep=1&srchmode=1&unlock,扫描它,然后拉出每个嵌套分类群中的目、科、属和种。然而,我只想让脊椎动物成为整个网站的一小部分,但与各种脊椎动物分类群相关的URL没有任何可识别的模式,即顺序。有没有办法做到这一点合理?我在尝试制定实现这一目标的不同方法时遇到了很多问题 至少我不太清楚,你到底想做什么,但是,据我所知,你需要创建某种爬虫来查找页面中的链接,导航站点并对它们进行分类 如果是这样的话,那就去吧,这样你就可以模拟web浏览器,在网站上导航,轻松地提取和跟踪链接,提交表单等等。这就是所谓的web scraping,仅在这500个问题上就有很多以前的问答,其中就有标记为Python的。在Python中,twill是一个可用层,位于mechanize之上,用于自动化;并为实际的刮削而美化。特别是使下面的链接比普通的机械化更容易,特别是它的命令通过链接标题而不是URL工作。如果这不能解决您的问题,请向我们展示这些链接的一些示例html片段?Python调用多个URL并从中提取数据,python,url,call,taxonomy,genetics,Python,Url,Call,Taxonomy,Genetics,我正试图写一个脚本来调用一个网页http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep=1&srchmode=1&unlock,扫描它,然后拉出每个嵌套分类群中的目、科、属和种。然而,我只想让脊椎动物成为整个网站的一小部分,但与各种脊椎动物分类群相关的URL没有任何可识别的模式,即顺序。有没有办法做到这一点合理?我在尝试制定实现这一目标的不同方法时遇到了很多问题 至少我不