Python调用多个URL并从中提取数据_Python_Url_Call_Taxonomy_Genetics

Python调用多个URL并从中提取数据

python url

Python调用多个URL并从中提取数据,python,url,call,taxonomy,genetics,Python,Url,Call,Taxonomy,Genetics,我正试图写一个脚本来调用一个网页http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep=1&srchmode=1&unlock，扫描它，然后拉出每个嵌套分类群中的目、科、属和种。然而，我只想让脊椎动物成为整个网站的一小部分，但与各种脊椎动物分类群相关的URL没有任何可识别的模式，即顺序。有没有办法做到这一点合理？我在尝试制定实现这一目标的不同方法时遇到了很多问题至少我不

我正试图写一个脚本来调用一个网页http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl=3&lin=f&keep=1&srchmode=1&unlock，扫描它，然后拉出每个嵌套分类群中的目、科、属和种。然而，我只想让脊椎动物成为整个网站的一小部分，但与各种脊椎动物分类群相关的URL没有任何可识别的模式，即顺序。有没有办法做到这一点合理？我在尝试制定实现这一目标的不同方法时遇到了很多问题

至少我不太清楚，你到底想做什么，但是，据我所知，你需要创建某种爬虫来查找页面中的链接，导航站点并对它们进行分类

如果是这样的话，那就去吧，这样你就可以模拟web浏览器，在网站上导航，轻松地提取和跟踪链接，提交表单等等。

这就是所谓的web scraping，仅在这500个问题上就有很多以前的问答，其中就有标记为Python的。在Python中，twill是一个可用层，位于mechanize之上，用于自动化；并为实际的刮削而美化。特别是使下面的链接比普通的机械化更容易，特别是它的命令通过链接标题而不是URL工作。如果这不能解决您的问题，请向我们展示这些链接的一些示例html片段？