Python Beautiful Soup从一个页面中删除单个页面

Python Beautiful Soup从一个页面中删除单个页面,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,所以我计划浏览一下这个网站,这样我就可以得到每个英超球队的阵容数据。有人能帮我怎么做吗?在这个URL下,在英超标题下,我可以看到一系列UI标签中的球队列表 我还注意到每个团队的URL都是这样的-,在该页面中,球队的链接看起来是- 但非英超球队也是如此 最初,我还能够为球队和他们的积分等刮取英超联赛表格,并将其放入csv中。因此,也许我可以使用它来构建URL以获取单个球队的数据?下面是我在csv中的示例 职位、团队、Pl、W、D、L、F、A、GD、Pts 曼彻斯特城,9,7,2,0,26,3,23

所以我计划浏览一下这个网站,这样我就可以得到每个英超球队的阵容数据。有人能帮我怎么做吗?在这个URL下,在英超标题下,我可以看到一系列UI标签中的球队列表

我还注意到每个团队的URL都是这样的-,在该页面中,球队的链接看起来是-

但非英超球队也是如此

最初,我还能够为球队和他们的积分等刮取英超联赛表格,并将其放入csv中。因此,也许我可以使用它来构建URL以获取单个球队的数据?下面是我在csv中的示例

职位、团队、Pl、W、D、L、F、A、GD、Pts 曼彻斯特城,9,7,2,0,26,3,23,23
利物浦,9,7,2,0,16,3,13,23

使用母版页上的链接来解析详细页面的正确地址,而不是猜测URL,正如你提到的,这在英超联赛中是失败的

因此,您需要使用beautifulsoup:

获取链接到所需详细信息页面的链接a。 获取此链接的href 如果链接是相对的,您需要根据当前页面解析它,因此使用urllib从url提取路径,然后使用newpath=os.abspaths.path.joincurpath,href,将其粘贴回域的url。 现在您有了详细信息页面的名称。
您可能会针对您所处的页面类型提出几种不同的情况,查找仅出现在您所查看页面上的id或类,或者使用字符串模式来确定要使用哪个页面解析器。

使用母版页上的链接来解析详细页面的正确地址,而不是猜测URL。对,我想从一开始就很难想象我将如何进行这项工作的架构。我的问题实际上是围绕着一个高层次的问题,我需要做些什么。我现在有一个列表中的所有URL。有了BeautifulSoup,我可以从一个主程序访问每个url,然后获取团队信息吗?我不太清楚如何做到这一点