Python BeautifulSoup4返回错误的HTML?
我正在尝试使用Beautifulsoup在Required.com上搜索工作帖子。但是,当我抓取一个URL时,返回的HTML与我在Google Chrome中手动转到URL,然后查看HTML时看到的HTML不同 这会导致我的申请得到一些不在我试图抓取的网页上的招聘信息 例如,当我清理我的程序时,会发现以下公司名称:Python BeautifulSoup4返回错误的HTML?,python,html,web-scraping,Python,Html,Web Scraping,我正在尝试使用Beautifulsoup在Required.com上搜索工作帖子。但是,当我抓取一个URL时,返回的HTML与我在Google Chrome中手动转到URL,然后查看HTML时看到的HTML不同 这会导致我的申请得到一些不在我试图抓取的网页上的招聘信息 例如,当我清理我的程序时,会发现以下公司名称: [['Nordic Tech House', 'Beaubi', 'NO COMPANY NAME AVAILABLE', 'National Pen', 'SWED
[['Nordic Tech House',
'Beaubi',
'NO COMPANY NAME AVAILABLE',
'National Pen',
'SWEDISH STOCKINGS',
'Above Agency',
'BNP Paribas',
'Flattered',
'Stronger',
'Doberman',
'Tink',
'Google',
'BDO AB',
'Amuseio AB',
'Beaubi']]
然而,当我实际访问该网页时,没有来自Google、Amuseio等的招聘信息,而且实际网页上的一些公司也不见了
我已经阅读了BeautifulSoup在变量“soup”(见下文)中返回的HTML代码,并将其与网页上的实际HTML代码进行了比较。在BeatifulSoup返回的HTML中,当然有Google和Muscio。但是,这与我在浏览器中查看页面时看到的HTML不同
当我试着刮的时候,一切都很好。此网站没有任何分页
这是我的密码:
from bs4 import BeautifulSoup
import requests
source = requests.get('https://se.indeed.com/jobb?q=Internship&l=Stockholm&start=0')
#THE URL WHICH PRODUCES THE STRANGE HTML
soup = BeautifulSoup(source.text, 'lxml')
articles = soup.find_all('div', class_='jobsearch-SerpJobCard')
#All job postings seem to be in a div with the class mentioned above.
def withdraw_company_names():
lst_of_company_names = []
for posting in articles:
try:
Company = posting.find('span', class_='company').text.strip()
except:
Company = "NO COMPANY NAME AVAILABLE"
print("Name: ", Company)
lst_of_company_names.append(Company)
return lst_of_company_names
基本上我想知道的是:
有人知道为什么在第一种情况下返回错误的HTML代码吗
亲切问候,,
丹尼尔如果我理解正确的话,你希望所有的职位都有详细信息,然后由公司过滤。 您的思路是正确的,现在需要发出其他请求,在本例中,对于每个post,获取数据jk元素,例如:data jk=“3a919d6b1b50ca”并向 你将从那篇文章中得到所有信息 现在,按您喜欢的方式保存数据