使用Python从HTML中提取项目_Python_Html

使用Python从HTML中提取项目

python html

使用Python从HTML中提取项目,python,html,Python,Html,我需要从web中不太复杂的HTML页面中提取一些信息。我不需要爬网或任何东西，只需要一些XPath选择器或类似的东西哪一个库的设置和编码速度最快，即快速获得结果！？Scrapy，BeautifulSoap，…，或者基本的HTMLPasser？很棒。试试看。它有时可以修复错误的HTML。很棒。试试看例如： import lxml.html doc = lxml.html.parse('url to parse') content_parsed = doc.xpath('xpath expre

我需要从web中不太复杂的HTML页面中提取一些信息。我不需要爬网或任何东西，只需要一些XPath选择器或类似的东西

哪一个库的设置和编码速度最快，即快速获得结果！？Scrapy，BeautifulSoap，…，或者基本的HTMLPasser？

很棒。试试看。它有时可以修复错误的HTML。

很棒。试试看

例如：

import lxml.html
doc = lxml.html.parse('url to parse')
content_parsed  = doc.xpath('xpath expre here')

如果您只想清理html，请查看lxml.html.clean。还请注意，如果有必要，允许lxml.html使用BeautifulSoup解析器

我对BeautifulSoup有一些经验，能够在几分钟内得到结果。下面的教程页面非常有用，有很多例子：

HTML保证是有效的XHTML吗？没有。它甚至可能包含错误。搜索按钮的哪一部分没有处理堆栈溢出？答案的可能重复似乎很完美，但我有一个查询BeautifulSoup是否支持xpath表达式。我从未使用过“BeautifulSoup”。我没有将xpath与BeautifulSoup一起使用，但请联机查看，人们似乎已经能够挑出他们需要的东西。对不起，我帮不了你太多。