使用Python从HTML中提取项目

使用Python从HTML中提取项目,python,html,Python,Html,我需要从web中不太复杂的HTML页面中提取一些信息。我不需要爬网或任何东西,只需要一些XPath选择器或类似的东西 哪一个库的设置和编码速度最快,即快速获得结果!?Scrapy,BeautifulSoap,…,或者基本的HTMLPasser?很棒。试试看。它有时可以修复错误的HTML。很棒。试试看 例如: import lxml.html doc = lxml.html.parse('url to parse') content_parsed = doc.xpath('xpath expre

我需要从web中不太复杂的HTML页面中提取一些信息。我不需要爬网或任何东西,只需要一些XPath选择器或类似的东西

哪一个库的设置和编码速度最快,即快速获得结果!?Scrapy,BeautifulSoap,…,或者基本的HTMLPasser?

很棒。试试看。它有时可以修复错误的HTML。

很棒。试试看

例如:

import lxml.html
doc = lxml.html.parse('url to parse')
content_parsed  = doc.xpath('xpath expre here')

如果您只想清理html,请查看lxml.html.clean。还请注意,如果有必要,允许lxml.html使用BeautifulSoup解析器

我对BeautifulSoup有一些经验,能够在几分钟内得到结果。下面的教程页面非常有用,有很多例子:


HTML保证是有效的XHTML吗?没有。它甚至可能包含错误。搜索按钮的哪一部分没有处理堆栈溢出?答案的可能重复似乎很完美,但我有一个查询BeautifulSoup是否支持xpath表达式。我从未使用过“BeautifulSoup”。我没有将xpath与BeautifulSoup一起使用,但请联机查看,人们似乎已经能够挑出他们需要的东西。对不起,我帮不了你太多。