Web scraping 如何在<;a类..>;文本</a>+;然后在一列中对文本进行排序
我需要帮助来删除html代码Web scraping 如何在<;a类..>;文本</a>+;然后在一列中对文本进行排序,web-scraping,text,extract,Web Scraping,Text,Extract,我需要帮助来删除html代码和元素,并且只保留了中间的文本(在图片中用黄色标记) 文本应列在标题为“说明”的列内的表格中 Im用于获取结果的代码: soup=BeautifulSoup(html,'html.parser') ul=汤。选择(“h2>a”) 有什么想法吗?请参考此以提取标记之间的文本 否则 试试这个 soup.p.next_sibling.strip() 您可以直接使用soup.p*(这取决于它是解析树中的第一个) 然后对soup.p返回的标记对象使用next\u sibl
和
元素,并且只保留了中间的文本(在图片中用黄色标记)
文本应列在标题为“说明”的列内的表格中
Im用于获取结果的代码:
soup=BeautifulSoup(html,'html.parser')
ul=汤。选择(“h2>a”)
有什么想法吗?请参考此以提取标记之间的文本 否则 试试这个
soup.p.next_sibling.strip()
soup.p
*(这取决于它是解析树中的第一个)soup.p
返回的标记对象使用next\u sibling
,因为所需文本嵌套在与.strip()
只是一种用于删除前导和尾随空格的Python str方法In [4]: soup.p
Out[4]: <p>tag contains</p>
In [5]: type(soup.p)
Out[5]: bs4.element.Tag
In [6]: soup.p.next_sibling
Out[6]: u'\n Text inside in your tag \n '
In [7]: type(soup.p.next_sibling)
Out[7]: bs4.element.NavigableString
In [8]: soup.p.next_sibling.strip()
Out[8]: u'Text inside in your tag'
In [9]: type(soup.p.next_sibling.strip())
Out[9]: unicode
[4]中的:soup.p
Out[4]:标记包含
In[5]:类型(soup.p)
Out[5]:bs4.element.Tag
在[6]中:soup.p.next_同胞
Out[6]:u'\n标记中的文本\n'
在[7]中:键入(soup.p.next_sibling)
Out[7]:bs4.element.NavigableString
[8]中的soup.p.next_sibling.strip()
Out[8]:u“标签中的文本”
在[9]中:键入(soup.p.next_sibling.strip())
Out[9]:unicode
如何打印([i.string表示ul中的i])