Python 美苏派萃取物
我想从以下网站的所有页面中提取FIRMA、STADT、BEWORBEN FÜR POSITION、JAHR DER BEWERBUNG、ERGEBNIS信息。这是我使用的代码。它(从所有页面)提取所需数据,但复制输出并保持运行。有没有办法解决这个问题?也许还有别的解决办法Python 美苏派萃取物,python,html,beautifulsoup,Python,Html,Beautifulsoup,我想从以下网站的所有页面中提取FIRMA、STADT、BEWORBEN FÜR POSITION、JAHR DER BEWERBUNG、ERGEBNIS信息。这是我使用的代码。它(从所有页面)提取所需数据,但复制输出并保持运行。有没有办法解决这个问题?也许还有别的解决办法 data=[] with requests.Session() as session: session.headers = { 'x-requested-with': 'XMLHttpRequest'
data=[]
with requests.Session() as session:
session.headers = {
'x-requested-with': 'XMLHttpRequest'
}
page = 1
while True:
print(f"Processing page {page}..")
url = f'https://www.kununu.com/de/volkswagen/bewerbung/{page}'
response = session.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
new_comments = [
data.get_text()
for data in soup.find_all('div', {'class':'review-details user-content hidden-xs'})
]
if not new_comments:
print(f"No more comments. Page: {page}")
break
data += new_comments
print(data)
print(len(data))
page += 1
print(data)
页面向下滚动最多为
10
,但页面参数为unlimited
但是我会给你一个提示
停止你的while循环
基于Jahr der Bewerbun
你可以停止循环,如果2019
不在数据中。因此,您可以根据年份进行分析:)
输出:
['Firma'、'VW-Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'培训生'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Desing'、'Jahr der Bewerbung',
‘2019’、‘Ergebnis’、‘für spätere Berücksichtigung vorgemerkt’]
[Firma]、[Vw]、[Stadt]、[Wolfsburg]、[Beworben für Position]、[Ausbuldungsplatz Fakultät 73]、[Jahr der]
Bewerbung、2019、Ergebnis、Zusage]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Functional Owner'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Personalwesen'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'IT项目采购经理'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikum'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'培训生'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Projektbetreuer Nutzfahrzeuge Elektronikentwiklung'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen AG-Werk Kassel'、'Stadt'、'Baunatal'、'Beworben für Position'、'Mechantroniker'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikant im Control'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Recrupter'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'VW'、'Stadt'、'WOB'、'Beworben für Position'、'Einkauf'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen AG'、'Stadt'、'Kassel'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Projektleiter'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Berufserfahrener'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'k.A.]
['Firma'、'VW Volkswagen AG'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikantin UX Design'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Zusage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'法律顾问'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Berlin'、'Beworben für Position'、'Data Scientist'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Manager'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Data Analytics'、'Jahr der Bewerbung'、'2019'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Produktionsmanager'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'Vw'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikum'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Promotionstelle'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma','VW Volkswagen AG','Stadt','Wolfsburg','Beworben für Position','Automechaniker','Jahr der
Bewerbung’、‘2018’、‘Ergebnis’、‘selbst anders entschieden’]
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Doktorand im Bereich Cyber Security'、'Jahr der Bewerbung'、'2017'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Praktikantin'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Management/f&E'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Absage']
['Firma'、'Volkswagen'、'Stadt'、'Hannover'、'Beworben für Position'、'Wirtschaftsingenieur/in technischer Vertrieb'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma'、'VW Volkswagen AG'、'Stadt'、'hannover'、'Beworben für Position'、'Praktikum im Bereich Marketing'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'selbst anders entschieden']
['Firma'、'VOLKSWAGEN AG'、'Stadt'、'Wolfsburg'、'Beworben für Position'、'Recrupter'、'Jahr der Bewerbung'、'2018'、'Ergebnis'、'Zusage']
['Firma','VOLKSWAGEN AG','Stadt','Wolfsburg','Beworben für Position','Management','Jahr der Bewerbung','2018','Ergebnis','k
import requests
from bs4 import BeautifulSoup
result = []
for page in range(1, 11):
print(f"Extracting Page# {page}")
r = requests.get(f"https://www.kununu.com/de/volkswagen/bewerbung/{page}")
soup = BeautifulSoup(r.text, 'html.parser')
for item in soup.findAll("div", {'class': 'review-details user-content hidden-xs'}):
data = [div.get_text(strip=True) for div in item.findAll("div")]
if data not in result:
result.append(data)
for what in result:
print(what)