Web scraping 如何在<;a类..>;文本</a>+;然后在一列中对文本进行排序

Web scraping 如何在<;a类..>;文本</a>+;然后在一列中对文本进行排序,web-scraping,text,extract,Web Scraping,Text,Extract,我需要帮助来删除html代码和元素,并且只保留了中间的文本(在图片中用黄色标记) 文本应列在标题为“说明”的列内的表格中 Im用于获取结果的代码: soup=BeautifulSoup(html,'html.parser') ul=汤。选择(“h2>a”) 有什么想法吗?请参考此以提取标记之间的文本 否则 试试这个 soup.p.next_sibling.strip() 您可以直接使用soup.p*(这取决于它是解析树中的第一个) 然后对soup.p返回的标记对象使用next\u sibl

我需要帮助来删除html代码
元素,并且只保留了中间的文本(在图片中用黄色标记)

文本应列在标题为“说明”的列内的表格中

Im用于获取结果的代码:

soup=BeautifulSoup(html,'html.parser')
ul=汤。选择(“h2>a”)

有什么想法吗?

请参考此以提取标记之间的文本

否则 试试这个

soup.p.next_sibling.strip()
  • 您可以直接使用
    soup.p
    *(这取决于它是解析树中的第一个)
  • 然后对
    soup.p
    返回的标记对象使用
    next\u sibling
    ,因为所需文本嵌套在与
  • .strip()
    只是一种用于删除前导和尾随空格的Python str方法
  • 在解释器中,这类似于:

    In [4]: soup.p
    Out[4]: <p>tag contains</p>
    
    In [5]: type(soup.p)
    Out[5]: bs4.element.Tag
    
    In [6]: soup.p.next_sibling
    Out[6]: u'\n      Text inside in your tag \n      '
    
    In [7]: type(soup.p.next_sibling)
    Out[7]: bs4.element.NavigableString
    
    In [8]: soup.p.next_sibling.strip()
    Out[8]: u'Text inside in your tag'
    
    In [9]: type(soup.p.next_sibling.strip())
    Out[9]: unicode
    
    [4]中的
    :soup.p
    Out[4]:标记包含

    In[5]:类型(soup.p) Out[5]:bs4.element.Tag 在[6]中:soup.p.next_同胞 Out[6]:u'\n标记中的文本\n' 在[7]中:键入(soup.p.next_sibling) Out[7]:bs4.element.NavigableString [8]中的soup.p.next_sibling.strip() Out[8]:u“标签中的文本” 在[9]中:键入(soup.p.next_sibling.strip()) Out[9]:unicode
    如何打印([i.string表示ul中的i])