Web scraping 如何在<；a类..>；文本</a>+；然后在一列中对文本进行排序_Web Scraping_Text_Extract

Web scraping 如何在<；a类..>；文本</a>+；然后在一列中对文本进行排序

web-scraping text

Web scraping 如何在<；a类..>；文本</a>+；然后在一列中对文本进行排序,web-scraping,text,extract,Web Scraping,Text,Extract,我需要帮助来删除html代码和元素，并且只保留了中间的文本（在图片中用黄色标记）文本应列在标题为“说明”的列内的表格中 Im用于获取结果的代码： soup=BeautifulSoup（html，'html.parser'） ul=汤。选择（“h2>a”）有什么想法吗？请参考此以提取标记之间的文本否则试试这个 soup.p.next_sibling.strip（）您可以直接使用soup.p*（这取决于它是解析树中的第一个）然后对soup.p返回的标记对象使用next\u sibl

我需要帮助来删除html代码

和

元素，并且只保留了中间的文本（在图片中用黄色标记）

文本应列在标题为“说明”的列内的表格中

Im用于获取结果的代码：

soup=BeautifulSoup（html，'html.parser'）
ul=汤。选择（“h2>a”）

有什么想法吗？

请参考此以提取标记之间的文本

否则试试这个

soup.p.next_sibling.strip（）

您可以直接使用

soup.p

*（这取决于它是解析树中的第一个）

然后对

soup.p

返回的标记对象使用

next\u sibling

，因为所需文本嵌套在与

.strip（）

只是一种用于删除前导和尾随空格的Python str方法

在解释器中，这类似于：

In [4]: soup.p
Out[4]: <p>tag contains</p>

In [5]: type(soup.p)
Out[5]: bs4.element.Tag

In [6]: soup.p.next_sibling
Out[6]: u'\n      Text inside in your tag \n      '

In [7]: type(soup.p.next_sibling)
Out[7]: bs4.element.NavigableString

In [8]: soup.p.next_sibling.strip()
Out[8]: u'Text inside in your tag'

In [9]: type(soup.p.next_sibling.strip())
Out[9]: unicode

[4]中的

：soup.p
Out[4]：标记包含
In[5]：类型（soup.p）
Out[5]：bs4.element.Tag
在[6]中：soup.p.next_同胞
Out[6]：u'\n标记中的文本\n'
在[7]中：键入（soup.p.next_sibling）
Out[7]：bs4.element.NavigableString
[8]中的soup.p.next_sibling.strip（）
Out[8]：u“标签中的文本”
在[9]中：键入（soup.p.next_sibling.strip（））
Out[9]：unicode

如何打印（[i.string表示ul中的i]）