用python从HTML中提取文本

用python从HTML中提取文本,python,html,text,extract,web-crawler,Python,Html,Text,Extract,Web Crawler,可能重复: 在Python中,以复制粘贴时浏览器所做的相同方式从HTML页面提取文本的最佳方法是什么?是读取和解析HTML页面的常用选项。该引用并没有为确切的问题提供任何Python解决方案。虽然和lxml都可以用来解析html,但从它们到接近嵌入html中的格式的文本还有一大步 为了做到这一点,我求助于非python解决方案(我在博客中提到过,但会拒绝在这里链接——不确定是否如此)。如果您使用的是*nix系统,则可以从德国安装。它可以通过其软件包管理器轻松安装在带有自制($brew安装htm

可能重复:

在Python中,以复制粘贴时浏览器所做的相同方式从HTML页面提取文本的最佳方法是什么?

是读取和解析HTML页面的常用选项。

该引用并没有为确切的问题提供任何Python解决方案。虽然和lxml都可以用来解析html,但从它们到接近嵌入html中的格式的文本还有一大步

为了做到这一点,我求助于非python解决方案(我在博客中提到过,但会拒绝在这里链接——不确定是否如此)。如果您使用的是*nix系统,则可以从德国安装。它可以通过其软件包管理器轻松安装在带有自制(
$brew安装html2text
)或Macports(
$sudo port安装html2text
)的MacOS上,以及其他*nix系统上。它有许多有用的选项,我是这样使用它的:

html2text-nobs-ascii-width 200-style pretty-o filename.txt-

您还可以安装基于文本的浏览器(例如),并使用它使用以下命令行语法从html生成格式化文本:
w3m filename.html-dump>file.txt

当然,您可以使用模块或流行的
子流程
包装器从Python访问这些解决方案


即使经过这些努力,您可能会发现一些重要信息(例如,
标记)并没有以您喜欢的方式进行处理,但这些是我目前找到的最佳选项。

Dang。多容易啊,@Makoto<代码>:D
可能重复。我建议这样回答: