Python 使用beautifulsoup从br标记获取文本_Python_Beautifulsoup_Lxml

Python 使用beautifulsoup从br标记获取文本

python

Python 使用beautifulsoup从br标记获取文本,python,beautifulsoup,lxml,Python,Beautifulsoup,Lxml,我试图使用python beautifulsoup从br标记中提取公司名称 HTML代码：德勤- 加利福尼亚州洛杉矶90013 一天前我尝试了下面的代码，但结果一无所获 companies=soup.find_all('br') for company in companies: print(company.text) 公司名称不是br标记的一部分，而是br标记后面的原始文本例如： prev = None for child in soup.find('p').childr

我试图使用python beautifulsoup从br标记中提取公司名称

HTML代码：




德勤-
加利福尼亚州洛杉矶90013


一天前

我尝试了下面的代码，但结果一无所获

companies=soup.find_all('br')
for company in companies:
   print(company.text)

公司名称不是

br

标记的一部分，而是

br

标记后面的原始文本

例如：

prev = None
for child in soup.find('p').children: 
    if prev is not None and prev.name == 'br': 
        print(child) # company name
        break
    prev = child

你可以链接下一个兄弟姐妹

from bs4 import BeautifulSoup as bs
import requests

r = requests.get('https://www.indeed.com/m/jobs?q=data+scientist&l=Los+Angeles%2C+CA')
soup = bs(r.content, 'lxml')
for job in soup.select('.jobTitle'):
    print(job.next_sibling.next_sibling)

关于如何提取公司名称的任何建议更新了我的答案，这有帮助吗？以下是完整代码：。这对我来说很有用（输出为“Deloitte-”。我不确定代码为什么不起作用。这是我试图从中获取的链接：的确是.com/m/jobs？q=data+scientist&l=Los+Angeles%2C+CA