Python 提取html表格中包含特定单词的文本

Python 提取html表格中包含特定单词的文本,python,Python,这里是Pyton初学者。可能有一个命令我不知道,但无法在web上找到解决方案。 我在Python设置中有一个字符串格式的html文件。 文件看起来像 <table> This is Table 1 </table> <table> This is Table 2 </table> <table> This is Table 3 </table> 这是表1 这是表2 这是表3 我想提取和之间的文本,但前提是它与表中的

这里是Pyton初学者。可能有一个命令我不知道,但无法在web上找到解决方案。 我在Python设置中有一个字符串格式的html文件。 文件看起来像

<table>
This is Table 1
</table>

<table>
This is Table 2
</table>

<table>
This is Table 3
</table>

这是表1
这是表2
这是表3
我想提取和之间的文本,但前提是它与表中的某些字符串匹配。所以,我只想要表2

我尝试拆分表上的文档,但由于它还包含
之间的部分,所以变得很混乱。我知道research命令,但不知道如何将其与if语句结合使用

re.search((*))

因此,一个想法是通过获取html。然后您可以简单地访问如下标记:

row = soup.find('tr') # Extract and return first occurrence of tr
print(row)            # Print row with HTML formatting
print("=========Text Result==========")
print(row.get_text()) # Print row as text

然后您可以获取innerHtml并将其与字符串进行比较。这将假定您可以使用BeautifulSoup访问html。这是从

获得的,请使用lxml解析器解决此问题

from lxml import html

text = '''<table>This is Table 1</table>

<table>This is Table 2</table>

<table>This is Table 3</table>'''

parser = html.fromstring(text)
parser.xpath("//table[contains(text(), 'Table 2')]/text()")

使用
beautifulsoup
阅读HTMLY您可以通过检查长度为7的子字符串来拆分文档。对于文档中的每个字符,请查看它是否是
的开头。如果是,请检查
之后和下一个
之前的内容
else转到下一个字符Brilliant!非常感谢。您知道除了表2之外是否可以包含多个字符串?是的,您可以使用“或”条件来包含多个字符串
['This is Table 2']