Python Beautiful Soup从一个页面中删除单个页面_Python_Web Scraping_Beautifulsoup

Python Beautiful Soup从一个页面中删除单个页面

python web-scraping

Python Beautiful Soup从一个页面中删除单个页面,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,所以我计划浏览一下这个网站，这样我就可以得到每个英超球队的阵容数据。有人能帮我怎么做吗？在这个URL下，在英超标题下，我可以看到一系列UI标签中的球队列表我还注意到每个团队的URL都是这样的-，在该页面中，球队的链接看起来是- 但非英超球队也是如此最初，我还能够为球队和他们的积分等刮取英超联赛表格，并将其放入csv中。因此，也许我可以使用它来构建URL以获取单个球队的数据？下面是我在csv中的示例职位、团队、Pl、W、D、L、F、A、GD、Pts 曼彻斯特城，9,7,2,0,26,3,23

所以我计划浏览一下这个网站，这样我就可以得到每个英超球队的阵容数据。有人能帮我怎么做吗？在这个URL下，在英超标题下，我可以看到一系列UI标签中的球队列表

我还注意到每个团队的URL都是这样的-，在该页面中，球队的链接看起来是-

但非英超球队也是如此

最初，我还能够为球队和他们的积分等刮取英超联赛表格，并将其放入csv中。因此，也许我可以使用它来构建URL以获取单个球队的数据？下面是我在csv中的示例

职位、团队、Pl、W、D、L、F、A、GD、Pts 曼彻斯特城，9,7,2,0,26,3,23,23

利物浦，9,7,2,0,16,3,13,23

使用母版页上的链接来解析详细页面的正确地址，而不是猜测URL，正如你提到的，这在英超联赛中是失败的

因此，您需要使用beautifulsoup：

获取链接到所需详细信息页面的链接a。获取此链接的href 如果链接是相对的，您需要根据当前页面解析它，因此使用urllib从url提取路径，然后使用newpath=os.abspaths.path.joincurpath，href，将其粘贴回域的url。现在您有了详细信息页面的名称。

您可能会针对您所处的页面类型提出几种不同的情况，查找仅出现在您所查看页面上的id或类，或者使用字符串模式来确定要使用哪个页面解析器。

使用母版页上的链接来解析详细页面的正确地址，而不是猜测URL。对，我想从一开始就很难想象我将如何进行这项工作的架构。我的问题实际上是围绕着一个高层次的问题，我需要做些什么。我现在有一个列表中的所有URL。有了BeautifulSoup，我可以从一个主程序访问每个url，然后获取团队信息吗？我不太清楚如何做到这一点