Python 如何在抓取网站时排除带有标记的特定文本?

Python 如何在抓取网站时排除带有标记的特定文本?,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,所以,我正在努力清理一个网站 import requests #importing modules search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text soup = BeautifulSoup(search,'lxml'

所以,我正在努力清理一个网站

import requests
#importing modules
search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text
soup = BeautifulSoup(search,'lxml')
jobs = soup.find_all("li",class_="clearfix job-bx wht-shd-bx")
for i in jobs:
    date_publishment = i.find("span",class_= "sim-posted").span.text
    if "few" in date_publishment:
        company_name = i.find("h3",class_= "joblist-comp-name" ).text.replace(" ","")
        company_skills = i.find("span",class_="srp-skills").text.replace(" ","")
        description =i.find("ul",class_='list-job-dtl clearfix').text
        #prints data---v
        print(f"Company Name:{company_name.strip()}")
        print(f"Skills:{company_skills.strip()}")
        print(f"Description:{description}")
        print("")
  • 职位描述: Sophos正在为我们的产品Talpal寻找一位在网络技术方面具有丰富经验的全栈开发人员。您将为什么产品工作?Talpal是一个基于云的。。。

  • 因此,在尝试删除描述时,存在一些问题,即主(li)标记中包含其他标记的文本。因此,Sophos正在为我们的产品Talpal寻找一位在点网技术方面具有丰富经验的全栈开发人员。您将为什么产品工作?Talpal是一款基于云的…

    您可以使用:contains以正确的标签标签为目标,然后下一步转到描述。例如,在环接作业内:

    i.select_one('label:contains("Job Description:")').next_sibling.strip()
    

    您是否已经尝试获取
    li
    .text而不是
    ul
    ?是的,我已经尝试过了。
    i.select_one('label:contains("Job Description:")').next_sibling.strip()