Python 使用lxml.html解析html
我正在scraperwiki.com上开发一个Python scraper,我需要解析一个包含以下内容的html页面:Python 使用lxml.html解析html,python,parsing,screen-scraping,lxml,Python,Parsing,Screen Scraping,Lxml,我正在scraperwiki.com上开发一个Python scraper,我需要解析一个包含以下内容的html页面: <div class="items"> <div class="item"> ItemLine1 ItemLine1 ItemLine1 <br> ItemLine2 ItemLine2 ItemLine2 </div> <br> </div> <
<div class="items">
<div class="item">
ItemLine1 ItemLine1 ItemLine1
<br>
ItemLine2 ItemLine2 ItemLine2
</div>
<br>
</div>
<para>
</para>
--------
<para>
ItemLine1 ItemLine1 ItemLine1
<a href="">item</a>
Itemline1-b
</para>
--------
<para><a class="z">item2</a>
ItemLine2 ItemLine2 ItemLine2
</para>
--------
<para/>
并且它只打印ItemLine1 ItemLine1 ItemLine1
。当我将[0]更改为[1]时,它会引发异常
我怎么刮呢?我应该使用xpath吗?xpath是最简单的解决方案:
items = raw_string.cssselect('div.items div.item')
texts = [item.xpath('br[1]/preceding-sibling::node()') for item in items]
XPathbr[1]
选择div.item
的第一个子br
;前面的同级::轴包含在第一个br
之前出现的所有节点<代码>节点()选择该轴中的每种节点(文本或元素)
如果您更大的目标是通过br
元素分割节点的子节点,那么您可以采取几种不同的方法。之所以如此棘手,是因为像br
和hr
这样的元素设计得很糟糕。使用类似于树的标记语言(如sgml、html或xml),应该放在一起的内容应该按公共父元素分组,而不是按无子分隔符元素拆分
我将扩展您的测试用例,以演示一些更复杂的情况:
html = """<div class="items">
<div class="item">
<br>
ItemLine1 ItemLine1 ItemLine1
<a href="">item</a>
Itemline1-b
<br>
<a class="z">item2</a>
ItemLine2 ItemLine2 ItemLine2
<br><br>
Itemline3
</div>
<br>
</div>"""
doc = lxml.html.fromstring(html)
itemlist = doc.cssselect('div.items div.item')
这将生成如下列表:
[['\n '],
['\n ItemLine1 ItemLine1 ItemLine1\n\t\t', <Element a at 0x10498a350>, '\n\t\tItemline1-b\n '],
[<Element a at 0x10498a230>, '\n ItemLine2 ItemLine2 ItemLine2\n '],
[],
['\n Itemline3\n ']]
这将生成这样的列表。请注意,与上一个列表相比,它在列表的第一个位置仅具有文本节点。这对应于br.tail
文本或parent.text
(第一个元素之前的文本)
这将打印以下内容:
<div class="items">
<div class="item">
ItemLine1 ItemLine1 ItemLine1
<br>
ItemLine2 ItemLine2 ItemLine2
</div>
<br>
</div>
<para>
</para>
--------
<para>
ItemLine1 ItemLine1 ItemLine1
<a href="">item</a>
Itemline1-b
</para>
--------
<para><a class="z">item2</a>
ItemLine2 ItemLine2 ItemLine2
</para>
--------
<para/>
--------
ItemLine1 ItemLine1 ItemLine1
项目1-b
--------
项目2
项目行2项目行2项目行2项目行2
--------
查看如何通过原始文档中不存在的新
para
元素对项目进行分组。我猜这里的问题是br已打开但未关闭。beautysoup不可接受可能,那又怎样?我必须解析它。谢谢,但它也只返回
ItemLine1 ItemLine1 ItemLine1
。那item2item2…
呢?我想这就是你想要的?我将用一个将它们分组的解决方案来扩展答案。
[['\n '],
['\n ItemLine1 ItemLine1 ItemLine1\n\t\t', <Element a at 0x1042f5170>],
[<Element a at 0x1042f5290>],
[],
['\n Itemline3\n ']]
def paras_by_br(parent):
paralist = []
para = lxml.html.etree.Element('para')
if parent.text:
para.text = parent.text
for item in parent:
if item.tag=='br':
paralist.append(para)
para = lxml.html.etree.Element('para')
if item.tail:
para.text = item.tail
else:
para.append(item)
return paralist
paralist = paras_by_br(itemlist[0])
print "\n--------\n".join(lxml.html.etree.tostring(para) for para in paralist)
<para>
</para>
--------
<para>
ItemLine1 ItemLine1 ItemLine1
<a href="">item</a>
Itemline1-b
</para>
--------
<para><a class="z">item2</a>
ItemLine2 ItemLine2 ItemLine2
</para>
--------
<para/>