Python 如何在抓取网站时排除带有标记的特定文本?
所以,我正在努力清理一个网站Python 如何在抓取网站时排除带有标记的特定文本?,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,所以,我正在努力清理一个网站 import requests #importing modules search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text soup = BeautifulSoup(search,'lxml'
import requests
#importing modules
search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text
soup = BeautifulSoup(search,'lxml')
jobs = soup.find_all("li",class_="clearfix job-bx wht-shd-bx")
for i in jobs:
date_publishment = i.find("span",class_= "sim-posted").span.text
if "few" in date_publishment:
company_name = i.find("h3",class_= "joblist-comp-name" ).text.replace(" ","")
company_skills = i.find("span",class_="srp-skills").text.replace(" ","")
description =i.find("ul",class_='list-job-dtl clearfix').text
#prints data---v
print(f"Company Name:{company_name.strip()}")
print(f"Skills:{company_skills.strip()}")
print(f"Description:{description}")
print("")
职位描述:
Sophos正在为我们的产品Talpal寻找一位在网络技术方面具有丰富经验的全栈开发人员。您将为什么产品工作?Talpal是一个基于云的。。。
因此,在尝试删除描述时,存在一些问题,即主(li)标记中包含其他标记的文本。因此,Sophos正在为我们的产品Talpal寻找一位在点网技术方面具有丰富经验的全栈开发人员。您将为什么产品工作?Talpal是一款基于云的…您可以使用:contains以正确的标签标签为目标,然后下一步转到描述。例如,在环接作业内:
i.select_one('label:contains("Job Description:")').next_sibling.strip()
您是否已经尝试获取
li
.text而不是ul
?是的,我已经尝试过了。
i.select_one('label:contains("Job Description:")').next_sibling.strip()