Python 网页垃圾多页问题

Python 网页垃圾多页问题,python,selenium,web-scraping,beautifulsoup,Python,Selenium,Web Scraping,Beautifulsoup,您好,我正在尝试刮取以下链接“https://eprocure.gov.in/eprocure/app;jsessionid=9AD8A7A17E1B2868527E25799DBE45A2。eprocgep2?页面=前端最新的活动接收器&服务=页面“使用python中的bs4。对于第一个页面,一切似乎都正常。但是当我导航到下一个页面时,URL模式正在完全改变。下面是下一个页面URL模式:"https://eprocure.gov.in/eprocure/app?component=%24Tab

您好,我正在尝试刮取以下链接“https://eprocure.gov.in/eprocure/app;jsessionid=9AD8A7A17E1B2868527E25799DBE45A2。eprocgep2?页面=前端最新的活动接收器&服务=页面“使用python中的bs4。对于第一个页面,一切似乎都正常。但是当我导航到下一个页面时,URL模式正在完全改变。下面是下一个页面URL模式:"https://eprocure.gov.in/eprocure/app?component=%24TablePages.linkPage&page=FrontEndLatestActiveTenders&service=direct&session=T&sp=AFrontEndLatestActiveTenders%2Ctable&sp=2“。由于模式更改,我无法自动完成每页的刮取过程。但是当我尝试手动刮取第二页时,soup对象无法获取任何标记。但是在网络检查中,显示第二页的这些标记…有人能解决此问题吗刮取所有页面。。请分享您的解决方案

您可以发布您尝试过的代码吗。无法粘贴整个代码,您是否有邮件id或skype id…这将很有帮助您可以添加与问题相关的代码。特别是您计划如何浏览pages.productLinks=soup.findAll('a',attrs={'id':re.compile(r'linkPage.*')})
页号列表=[1]
对于productLinks中的项:
页号列表。追加(int(item.text))
url列表=[“{}&pageNum={}”。格式(基本url,str page))对于页号列表中的页]
@ShirsenduMazumdar提供的链接没有任何问题!