Python 3.x 仅使用HTML请求从父标记提取文本_Python 3.x_Html Parsing_Python Requests Html

Python 3.x 仅使用HTML请求从父标记提取文本

python-3.x

Python 3.x 仅使用HTML请求从父标记提取文本,python-3.x,html-parsing,python-requests-html,Python 3.x,Html Parsing,Python Requests Html,我只想使用HTML请求从父标记中提取文本。如果我们有这样的html <td> <a href="">There</a> <a href="">are</a> <a href="">some</a> <a href="">links.</a> The text that we are looking f

我只想使用HTML请求从父标记中提取文本。如果我们有这样的html

<td>
    <a href="">There</a> <a href="">are</a> <a href="">some</a> <a href="">links.</a> The text that we are looking for.
<td>

然后

html.find'td'，first=True.text

导致

>>>这里有一些链接。我们正在查找的文本。

您可以使用库直接支持的xpath表达式

从请求\u html导入html 文件= 我们正在寻找的文本。 html=HTMLhtml=doc 该列表将包含标记之间的所有空格 text\u list=html.xpath'//td/text' 加入列表并去掉空白 print.jointext\u list.strip我们要查找的文本。表达式//td/text将选择所有td节点，其文本根文本内容//td//text将选择所有文本内容。

您可以使用库直接支持的xpath表达式

从请求\u html导入html 文件= 我们正在寻找的文本。 html=HTMLhtml=doc 该列表将包含标记之间的所有空格 text\u list=html.xpath'//td/text' 加入列表并去掉空白 print.jointext\u list.strip我们要查找的文本。

表达式//td/text将选择所有td节点，其文本根文本内容//td//text将选择所有文本内容。

Hello Gluck。我会去看看漂亮的汤。你好，格鲁克。我会去看看漂亮的汤。