Python 如何在抓取网站时排除带有标记的特定文本？_Python_Web Scraping_Beautifulsoup

Python 如何在抓取网站时排除带有标记的特定文本？

python web-scraping

Python 如何在抓取网站时排除带有标记的特定文本？,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,所以，我正在努力清理一个网站 import requests #importing modules search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text soup = BeautifulSoup(search,'lxml'

所以，我正在努力清理一个网站

import requests
#importing modules
search = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=C%23&txtLocation=').text
soup = BeautifulSoup(search,'lxml')
jobs = soup.find_all("li",class_="clearfix job-bx wht-shd-bx")
for i in jobs:
    date_publishment = i.find("span",class_= "sim-posted").span.text
    if "few" in date_publishment:
        company_name = i.find("h3",class_= "joblist-comp-name" ).text.replace(" ","")
        company_skills = i.find("span",class_="srp-skills").text.replace(" ","")
        description =i.find("ul",class_='list-job-dtl clearfix').text
        #prints data---v
        print(f"Company Name:{company_name.strip()}")
        print(f"Skills:{company_skills.strip()}")
        print(f"Description:{description}")
        print("")


职位描述：
Sophos正在为我们的产品Talpal寻找一位在网络技术方面具有丰富经验的全栈开发人员。您将为什么产品工作？Talpal是一个基于云的。。。

因此，在尝试删除描述时，存在一些问题，即主（li）标记中包含其他标记的文本。因此，Sophos正在为我们的产品Talpal寻找一位在点网技术方面具有丰富经验的全栈开发人员。您将为什么产品工作？Talpal是一款基于云的…

您可以使用：contains以正确的标签标签为目标，然后下一步转到描述。例如，在环接作业内：

i.select_one('label:contains("Job Description:")').next_sibling.strip()

您是否已经尝试获取

li

.text而不是

ul

？是的，我已经尝试过了。

i.select_one('label:contains("Job Description:")').next_sibling.strip()