Web scraping 使用python或任何其他工具从同一个URL中获取动态信息_Web Scraping

Web scraping 使用python或任何其他工具从同一个URL中获取动态信息

web-scraping

Web scraping 使用python或任何其他工具从同一个URL中获取动态信息,web-scraping,Web Scraping,我正试图抓取在本网站上发布招聘信息的每家公司的URL：我想拉的信息，以产生一些统计数据这个网站问题是，当我点击一个add并浏览招聘帖子时，url总是相同的。我懂一点python，所以任何使用它的解决方案都会很有用。不过，我对任何其他方法都持开放态度提前谢谢你。这只是一段伪代码，让你了解你在寻找什么 import requests headers = {'User-Agent': 'Mozilla/5.0'} first_url = 'https://job-board-v3.work

我正试图抓取在本网站上发布招聘信息的每家公司的URL：
我想拉的信息，以产生一些统计数据这个网站
问题是，当我点击一个add并浏览招聘帖子时，url总是相同的。我懂一点python，所以任何使用它的解决方案都会很有用。不过，我对任何其他方法都持开放态度

提前谢谢你。
这只是一段伪代码，让你了解你在寻找什么

import requests headers = {'User-Agent': 'Mozilla/5.0'} first_url = 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc' base_url= 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc&offset=' page_ids = ['0','10','20','30','40','50'] ## can also be created dynamically this is just raw for pep_id in page_ids: # for initial page if(pep_id == '0'): page = requests.get(first_url, headers=headers) print('You still need to parse the first page') ##Enter some parsing logic else: final_url = base_url + str(pep_id) page = requests.get(final_url, headers=headers) print('You still need to parse the other pages') ##Enter some parsing logic

这只是一段伪代码，让您了解您要查找的内容

import requests headers = {'User-Agent': 'Mozilla/5.0'} first_url = 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc' base_url= 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc&offset=' page_ids = ['0','10','20','30','40','50'] ## can also be created dynamically this is just raw for pep_id in page_ids: # for initial page if(pep_id == '0'): page = requests.get(first_url, headers=headers) print('You still need to parse the first page') ##Enter some parsing logic else: final_url = base_url + str(pep_id) page = requests.get(final_url, headers=headers) print('You still need to parse the other pages') ##Enter some parsing logic

如果您有任何代码，请显示它。如果您是python初学者，那么最好先学习python，然后掌握解决此问题所需的技能。不太可能有人会按照您的要求从头开始为您编写完整的解决方案。我没有代码，因为我不知道什么是正确的方法。我通常将beautifulsoup与我想要废弃的url一起使用，但在这种情况下，没有我可以使用的url。我真的只需要知道正确的方向，然后我会自己做代码，你可以导航到XHR选项卡并检查那里。我得到了一个链接，它的结果存储如下：-在这之后，你只需要正确地解析它就可以得到想要的结果。这太棒了，非常感谢你。最后一个问题：如何获得其余页面的结果？您共享的链接仅包含第一页结果。如果您在更改和转到下一页时密切监视XHR，则可以观察简单的URL生成模式。我将只分享下面的伪代码，这样它可能也会帮助其他人，你可以生成解析逻辑以及你想要刮取的页面的深度或数量。如果你有任何代码，展示它。如果您是python初学者，那么最好先学习python，然后掌握解决此问题所需的技能。不太可能有人会按照您的要求从头开始为您编写完整的解决方案。我没有代码，因为我不知道什么是正确的方法。我通常将beautifulsoup与我想要废弃的url一起使用，但在这种情况下，没有我可以使用的url。我真的只需要知道正确的方向，然后我会自己做代码，你可以导航到XHR选项卡并检查那里。我得到了一个链接，它的结果存储如下：-在这之后，你只需要正确地解析它就可以得到想要的结果。这太棒了，非常感谢你。最后一个问题：如何获得其余页面的结果？您共享的链接仅包含第一页结果。如果您在更改和转到下一页时密切监视XHR，则可以观察简单的URL生成模式。我将只分享下面的伪代码，这样它可能也会帮助其他人，您可以生成解析逻辑以及您想要刮取的页面的深度或数量。