Python 美苏派萃取物

Python 美苏派萃取物,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想从以下网站的所有页面中提取FIRMA、STADT、BEWORBEN FÜR POSITION、JAHR DER BEWERBUNG、ERGEBNIS信息。这是我使用的代码。它(从所有页面)提取所需数据,但复制输出并保持运行。有没有办法解决这个问题?也许还有别的解决办法 data=[] with requests.Session() as session: session.headers = { 'x-requested-with': 'XMLHttpRequest'

我想从以下网站的所有页面中提取FIRMA、STADT、BEWORBEN FÜR POSITION、JAHR DER BEWERBUNG、ERGEBNIS信息。这是我使用的代码。它(从所有页面)提取所需数据,但复制输出并保持运行。有没有办法解决这个问题?也许还有别的解决办法

data=[]
with requests.Session() as session:
    session.headers = {
        'x-requested-with': 'XMLHttpRequest'
    }
    page = 1
    while True:
        print(f"Processing page {page}..")
        url = f'https://www.kununu.com/de/volkswagen/bewerbung/{page}'
        response = session.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        new_comments = [
            data.get_text()
            for data in soup.find_all('div', {'class':'review-details user-content hidden-xs'})
        ]
        if not new_comments:
            print(f"No more comments. Page: {page}")
            break
        data += new_comments
        print(data)
        print(len(data))
        page += 1
print(data)

页面向下滚动最多为
10
,但页面参数为
unlimited

但是我会给你一个
提示
停止你的
while循环
基于
Jahr der Bewerbun
你可以停止循环,如果
2019
不在数据中。因此,您可以根据年份进行分析:)

输出:

['Firma'、'VW-Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'培训生'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Desing'、'Jahr der Bewerbung',
‘2019’、‘Ergebnis’、‘für spätere Berücksichtigung vorgemerkt’]
[Firma]、[Vw]、[Stadt]、[Wolfsburg]、[Beworben für Position]、[Ausbuldungsplatz Fakultät 73]、[Jahr der]
Bewerbung、2019、Ergebnis、Zusage]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Functional Owner'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Personalwesen'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'IT项目采购经理'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikum'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'培训生'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Projektbetreuer Nutzfahrzeuge Elektronikentwiklung'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen AG-Werk Kassel'、'Stadt'、'Baunatal'、'Beworben für Position'、'Mechantroniker'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikant im Control'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Recrupter'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'VW'、'Stadt'、'WOB'、'Beworben für Position'、'Einkauf'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen AG'、'Stadt'、'Kassel'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Projektleiter'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Berufserfahrener'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikantin UX Design'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'法律顾问'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Berlin'、'Beworben für Position'、'Data Scientist'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Manager'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Data Analytics'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Produktionsmanager'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'Vw'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikum'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Promotionstelle'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma','VW Volkswagen AG','Stadt','Wolfsburg','Beworben für Position','Automechaniker','Jahr der
Bewerbung’、‘2018’、‘Ergebnis’、‘selbst anders entschieden’]
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Doktorand im Bereich Cyber Security'、'Jahr der Bewerbung'、'2017'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikantin'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Management/f&E'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Hannover'、'Beworben für Position'、'Wirtschaftsingenieur/in technischer Vertrieb'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'hannover'、'Beworben für Position'、'Praktikum im Bereich Marketing'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Recrupter'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma','VOLKSWAGEN AG','Stadt','Wolfsburg','Beworben für Position','Management','Jahr der Bewerbung','2018','Ergebnis','k
import requests
from bs4 import BeautifulSoup


result = []
for page in range(1, 11):
    print(f"Extracting Page# {page}")
    r = requests.get(f"https://www.kununu.com/de/volkswagen/bewerbung/{page}")
    soup = BeautifulSoup(r.text, 'html.parser')

    for item in soup.findAll("div", {'class': 'review-details user-content hidden-xs'}):
        data = [div.get_text(strip=True) for div in item.findAll("div")]
        if data not in result:
            result.append(data)

for what in result:
    print(what)