Python 使用beautifulsoup从br标记获取文本
我试图使用python beautifulsoup从br标记中提取公司名称 HTML代码:Python 使用beautifulsoup从br标记获取文本,python,beautifulsoup,lxml,Python,Beautifulsoup,Lxml,我试图使用python beautifulsoup从br标记中提取公司名称 HTML代码: 德勤- 加利福尼亚州洛杉矶90013 一天前 我尝试了下面的代码,但结果一无所获 companies=soup.find_all('br') for company in companies: print(company.text) 公司名称不是br标记的一部分,而是br标记后面的原始文本 例如: prev = None for child in soup.find('p').childr
德勤-
加利福尼亚州洛杉矶90013
一天前
我尝试了下面的代码,但结果一无所获
companies=soup.find_all('br')
for company in companies:
print(company.text)
公司名称不是
br
标记的一部分,而是br
标记后面的原始文本
例如:
prev = None
for child in soup.find('p').children:
if prev is not None and prev.name == 'br':
print(child) # company name
break
prev = child
你可以链接下一个兄弟姐妹
from bs4 import BeautifulSoup as bs
import requests
r = requests.get('https://www.indeed.com/m/jobs?q=data+scientist&l=Los+Angeles%2C+CA')
soup = bs(r.content, 'lxml')
for job in soup.select('.jobTitle'):
print(job.next_sibling.next_sibling)
关于如何提取公司名称的任何建议更新了我的答案,这有帮助吗?以下是完整代码:。这对我来说很有用(输出为“Deloitte-”。我不确定代码为什么不起作用。这是我试图从中获取的链接:的确是.com/m/jobs?q=data+scientist&l=Los+Angeles%2C+CA