Python 获取lxml中的下一个指定元素?
我正在努力解析这个html。有h2s作为段落的标题。两者都在单独的div中,并由更多div分隔。该段落不是h2的子段落。我想把它们组合在一起,但我不知道怎么做。我原以为find可以,但没用:Python 获取lxml中的下一个指定元素?,python,html,lxml,Python,Html,Lxml,我正在努力解析这个html。有h2s作为段落的标题。两者都在单独的div中,并由更多div分隔。该段落不是h2的子段落。我想把它们组合在一起,但我不知道怎么做。我原以为find可以,但没用: html = doc.cssselect('h2.title') for para in html: content = para.find('div.content') lxml.html.HtmlElement.find只接受标记名或路径-它不接受完整的CSS选择器 一个更好的方法是使用带有高级选
html = doc.cssselect('h2.title')
for para in html:
content = para.find('div.content')
lxml.html.HtmlElement.find
只接受标记名或路径-它不接受完整的CSS选择器
一个更好的方法是使用带有高级选择器的doc.csselect
lxml.html
将为您将它们转换为XPath选择器
也许:
for elem in doc.cssselect('h2.title div.content'):
elem.text_content()
欢迎来到SO!提交HTML片段将使回答问题的人更容易。