Web scraping 使用python或任何其他工具从同一个URL中获取动态信息

Web scraping 使用python或任何其他工具从同一个URL中获取动态信息,web-scraping,Web Scraping,我正试图抓取在本网站上发布招聘信息的每家公司的URL: 我想拉的信息,以产生一些统计数据这个网站 问题是,当我点击一个add并浏览招聘帖子时,url总是相同的。我懂一点python,所以任何使用它的解决方案都会很有用。不过,我对任何其他方法都持开放态度 提前谢谢你。这只是一段伪代码,让你了解你在寻找什么 import requests headers = {'User-Agent': 'Mozilla/5.0'} first_url = 'https://job-board-v3.work

我正试图抓取在本网站上发布招聘信息的每家公司的URL:

我想拉的信息,以产生一些统计数据这个网站

问题是,当我点击一个add并浏览招聘帖子时,url总是相同的。我懂一点python,所以任何使用它的解决方案都会很有用。不过,我对任何其他方法都持开放态度


提前谢谢你。

这只是一段伪代码,让你了解你在寻找什么

import requests

headers = {'User-Agent': 'Mozilla/5.0'}

first_url = 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc'
base_url= 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc&offset='
page_ids = ['0','10','20','30','40','50'] ## can also be created dynamically this is just raw

for pep_id in page_ids:
    # for initial page
    if(pep_id ==  '0'):
        page = requests.get(first_url, headers=headers)
        print('You still need to parse the first page')
        ##Enter some parsing logic
    else:
        final_url = base_url + str(pep_id)
        page = requests.get(final_url, headers=headers)
        print('You still need to parse the other pages')
        ##Enter some parsing logic

这只是一段伪代码,让您了解您要查找的内容

import requests

headers = {'User-Agent': 'Mozilla/5.0'}

first_url = 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc'
base_url= 'https://job-board-v3.workable.com/api/v1/jobs?query=&orderBy=postingUpdateTime+desc&offset='
page_ids = ['0','10','20','30','40','50'] ## can also be created dynamically this is just raw

for pep_id in page_ids:
    # for initial page
    if(pep_id ==  '0'):
        page = requests.get(first_url, headers=headers)
        print('You still need to parse the first page')
        ##Enter some parsing logic
    else:
        final_url = base_url + str(pep_id)
        page = requests.get(final_url, headers=headers)
        print('You still need to parse the other pages')
        ##Enter some parsing logic

如果您有任何代码,请显示它。如果您是python初学者,那么最好先学习python,然后掌握解决此问题所需的技能。不太可能有人会按照您的要求从头开始为您编写完整的解决方案。我没有代码,因为我不知道什么是正确的方法。我通常将beautifulsoup与我想要废弃的url一起使用,但在这种情况下,没有我可以使用的url。我真的只需要知道正确的方向,然后我会自己做代码,你可以导航到XHR选项卡并检查那里。我得到了一个链接,它的结果存储如下:-在这之后,你只需要正确地解析它就可以得到想要的结果。这太棒了,非常感谢你。最后一个问题:如何获得其余页面的结果?您共享的链接仅包含第一页结果。如果您在更改和转到下一页时密切监视XHR,则可以观察简单的URL生成模式。我将只分享下面的伪代码,这样它可能也会帮助其他人,你可以生成解析逻辑以及你想要刮取的页面的深度或数量。如果你有任何代码,展示它。如果您是python初学者,那么最好先学习python,然后掌握解决此问题所需的技能。不太可能有人会按照您的要求从头开始为您编写完整的解决方案。我没有代码,因为我不知道什么是正确的方法。我通常将beautifulsoup与我想要废弃的url一起使用,但在这种情况下,没有我可以使用的url。我真的只需要知道正确的方向,然后我会自己做代码,你可以导航到XHR选项卡并检查那里。我得到了一个链接,它的结果存储如下:-在这之后,你只需要正确地解析它就可以得到想要的结果。这太棒了,非常感谢你。最后一个问题:如何获得其余页面的结果?您共享的链接仅包含第一页结果。如果您在更改和转到下一页时密切监视XHR,则可以观察简单的URL生成模式。我将只分享下面的伪代码,这样它可能也会帮助其他人,您可以生成解析逻辑以及您想要刮取的页面的深度或数量。