Python 使用beautifulsoup从br标记获取文本

Python 使用beautifulsoup从br标记获取文本,python,beautifulsoup,lxml,Python,Beautifulsoup,Lxml,我试图使用python beautifulsoup从br标记中提取公司名称 HTML代码: 德勤- 加利福尼亚州洛杉矶90013 一天前 我尝试了下面的代码,但结果一无所获 companies=soup.find_all('br') for company in companies: print(company.text) 公司名称不是br标记的一部分,而是br标记后面的原始文本 例如: prev = None for child in soup.find('p').childr

我试图使用python beautifulsoup从br标记中提取公司名称

HTML代码:



德勤- 加利福尼亚州洛杉矶90013
一天前

我尝试了下面的代码,但结果一无所获

companies=soup.find_all('br')
for company in companies:
   print(company.text)

公司名称不是
br
标记的一部分,而是
br
标记后面的原始文本

例如:

prev = None
for child in soup.find('p').children: 
    if prev is not None and prev.name == 'br': 
        print(child) # company name
        break
    prev = child

你可以链接下一个兄弟姐妹

from bs4 import BeautifulSoup as bs
import requests

r = requests.get('https://www.indeed.com/m/jobs?q=data+scientist&l=Los+Angeles%2C+CA')
soup = bs(r.content, 'lxml')
for job in soup.select('.jobTitle'):
    print(job.next_sibling.next_sibling)

关于如何提取公司名称的任何建议更新了我的答案,这有帮助吗?以下是完整代码:。这对我来说很有用(输出为“Deloitte-”。我不确定代码为什么不起作用。这是我试图从中获取的链接:的确是.com/m/jobs?q=data+scientist&l=Los+Angeles%2C+CA