Python BeautifulSoup4返回错误的HTML？_Python_Html_Web Scraping

Python BeautifulSoup4返回错误的HTML？

python html web-scraping

Python BeautifulSoup4返回错误的HTML？,python,html,web-scraping,Python,Html,Web Scraping,我正在尝试使用Beautifulsoup在Required.com上搜索工作帖子。但是，当我抓取一个URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同这会导致我的申请得到一些不在我试图抓取的网页上的招聘信息例如，当我清理我的程序时，会发现以下公司名称： [['Nordic Tech House', 'Beaubi', 'NO COMPANY NAME AVAILABLE', 'National Pen', 'SWED

我正在尝试使用Beautifulsoup在Required.com上搜索工作帖子。但是，当我抓取一个URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同

这会导致我的申请得到一些不在我试图抓取的网页上的招聘信息

例如，当我清理我的程序时，会发现以下公司名称：

[['Nordic Tech House',
  'Beaubi',
  'NO COMPANY NAME AVAILABLE',
  'National Pen',
  'SWEDISH STOCKINGS',
  'Above Agency',
  'BNP Paribas',
  'Flattered',
  'Stronger',
  'Doberman',
  'Tink',
  'Google',
  'BDO AB',
  'Amuseio AB',
  'Beaubi']]

然而，当我实际访问该网页时，没有来自Google、Amuseio等的招聘信息，而且实际网页上的一些公司也不见了

我已经阅读了BeautifulSoup在变量“soup”（见下文）中返回的HTML代码，并将其与网页上的实际HTML代码进行了比较。在BeatifulSoup返回的HTML中，当然有Google和Muscio。但是，这与我在浏览器中查看页面时看到的HTML不同

当我试着刮的时候，一切都很好。此网站没有任何分页

这是我的密码：

from bs4 import BeautifulSoup
import requests 

source = requests.get('https://se.indeed.com/jobb?q=Internship&l=Stockholm&start=0') 
#THE URL WHICH PRODUCES THE STRANGE HTML

soup = BeautifulSoup(source.text, 'lxml')

articles = soup.find_all('div', class_='jobsearch-SerpJobCard') 
#All job postings seem to be in a div with the class mentioned above. 

def withdraw_company_names():
    lst_of_company_names = []
    for posting in articles:
        try:
            Company = posting.find('span', class_='company').text.strip()
        except:
            Company = "NO COMPANY NAME AVAILABLE"
        print("Name: ", Company)
        lst_of_company_names.append(Company) 

    return lst_of_company_names

基本上我想知道的是：

有人知道为什么在第一种情况下返回错误的HTML代码吗

亲切问候,，

丹尼尔

如果我理解正确的话，你希望所有的职位都有详细信息，然后由公司过滤。您的思路是正确的，现在需要发出其他请求，在本例中，对于每个post，获取数据jk元素，例如：data jk=“3a919d6b1b50ca”并向

你将从那篇文章中得到所有信息现在，按您喜欢的方式保存数据