Python 提取html表格中包含特定单词的文本
这里是Pyton初学者。可能有一个命令我不知道,但无法在web上找到解决方案。 我在Python设置中有一个字符串格式的html文件。 文件看起来像Python 提取html表格中包含特定单词的文本,python,Python,这里是Pyton初学者。可能有一个命令我不知道,但无法在web上找到解决方案。 我在Python设置中有一个字符串格式的html文件。 文件看起来像 <table> This is Table 1 </table> <table> This is Table 2 </table> <table> This is Table 3 </table> 这是表1 这是表2 这是表3 我想提取和之间的文本,但前提是它与表中的
<table>
This is Table 1
</table>
<table>
This is Table 2
</table>
<table>
This is Table 3
</table>
这是表1
这是表2
这是表3
我想提取和之间的文本,但前提是它与表中的某些字符串匹配。所以,我只想要表2
我尝试拆分表上的文档,但由于它还包含和之间的部分,所以变得很混乱。我知道research命令,但不知道如何将其与if语句结合使用
re.search((*))
因此,一个想法是通过获取html。然后您可以简单地访问如下标记:
row = soup.find('tr') # Extract and return first occurrence of tr
print(row) # Print row with HTML formatting
print("=========Text Result==========")
print(row.get_text()) # Print row as text
然后您可以获取innerHtml并将其与字符串进行比较。这将假定您可以使用BeautifulSoup访问html。这是从获得的,请使用lxml解析器解决此问题
from lxml import html
text = '''<table>This is Table 1</table>
<table>This is Table 2</table>
<table>This is Table 3</table>'''
parser = html.fromstring(text)
parser.xpath("//table[contains(text(), 'Table 2')]/text()")
使用beautifulsoup
阅读HTMLY您可以通过检查长度为7的子字符串来拆分文档。对于文档中的每个字符,请查看它是否是“
的开头。如果是,请检查”
之后和下一个之前的内容
else转到下一个字符Brilliant!非常感谢。您知道除了表2之外是否可以包含多个字符串?是的,您可以使用“或”条件来包含多个字符串
['This is Table 2']