Python 从给定内容开始的HTML表格单元格内容的XPath_Python_Html_Xml_Xpath_Html Parsing

Python 从给定内容开始的HTML表格单元格内容的XPath

python html xml xpath

Python 从给定内容开始的HTML表格单元格内容的XPath,python,html,xml,xpath,html-parsing,Python,Html,Xml,Xpath,Html Parsing,这是表格格式的HTML： <tr><td style="width: 150px;">Development Name:</td><td><b>Bellewoods</b></td></tr> <tr><td style="width: 150px;">Property Type:</td><td><b>Executive Condomini

这是表格格式的HTML：

<tr><td style="width: 150px;">Development Name:</td><td><b>Bellewoods</b></td></tr>
<tr><td style="width: 150px;">Property Type:</td><td><b>Executive Condominium</b></td></tr>
<tr><td style="width: 150px;">Developer:</td><td><b>Qingjian Realty (Woodlands) Pte Ltd</b></td></tr>
<tr><td style="width: 150px;">Tenure:</td><td><b>99-year Leasehold</b></td></tr>
<tr><td style="width: 150px;"># of Floors:</td><td><b>30</b></td></tr>
<tr><td style="width: 150px;"># of Units:</td><td><b>561</b></td></tr>

我正在使用此XPath，但它不起作用：

'//tr//td[@style="width: 150px;" and text()="Development Name:"]//td//b'

检查第一个

td

的文本并获取：

使用firebug进行检查。在评论中提供一个链接，例如来自此-开发名称：Bellewoods我如何提取Bellewoods，请注意它应该来自开发名称？这对我很重要。html/body/table/tbody/tr[1]/td[2]/bit不可能工作，在这种情况下，我有3200个链接，我希望从每个链接中提取这些信息字段。开发名称、属性类型、开发人员、使用期限、楼层、单位如果我使用节点值方法，我将获得错误的数据，因此，对于我来说，包含2是很重要的，如果第一个元素包含文本值-Development Name:，那么输出应该是该在线工具中同一元素内的下一个值=Bellewoods

'//tr//td[@style="width: 150px;" and text()="Development Name:"]//td//b'

//tr/td[. = "Development Name:"]/following-sibling::td/b/text()