用python从HTML中提取文本_Python_Html_Text_Extract_Web Crawler

用python从HTML中提取文本

python html text web-crawler

用python从HTML中提取文本,python,html,text,extract,web-crawler,Python,Html,Text,Extract,Web Crawler,可能重复：在Python中，以复制粘贴时浏览器所做的相同方式从HTML页面提取文本的最佳方法是什么？是读取和解析HTML页面的常用选项。该引用并没有为确切的问题提供任何Python解决方案。虽然和lxml都可以用来解析html，但从它们到接近嵌入html中的格式的文本还有一大步为了做到这一点，我求助于非python解决方案（我在博客中提到过，但会拒绝在这里链接——不确定是否如此）。如果您使用的是*nix系统，则可以从德国安装。它可以通过其软件包管理器轻松安装在带有自制（$brew安装htm

可能重复：

在Python中，以复制粘贴时浏览器所做的相同方式从HTML页面提取文本的最佳方法是什么？

是读取和解析HTML页面的常用选项。

该引用并没有为确切的问题提供任何Python解决方案。虽然和lxml都可以用来解析html，但从它们到接近嵌入html中的格式的文本还有一大步

为了做到这一点，我求助于非python解决方案（我在博客中提到过，但会拒绝在这里链接——不确定是否如此）。如果您使用的是*nix系统，则可以从德国安装。它可以通过其软件包管理器轻松安装在带有自制（

$brew安装html2text

）或Macports（

$sudo port安装html2text

）的MacOS上，以及其他*nix系统上。它有许多有用的选项，我是这样使用它的：

html2text-nobs-ascii-width 200-style pretty-o filename.txt-


您还可以安装基于文本的浏览器（例如），并使用它使用以下命令行语法从html生成格式化文本：
w3m filename.html-dump>file.txt

当然，您可以使用模块或流行的子流程
包装器从Python访问这些解决方案
即使经过这些努力，您可能会发现一些重要信息（例如，
标记）并没有以您喜欢的方式进行处理，但这些是我目前找到的最佳选项。
Dang。多容易啊，@Makoto<代码>：D

可能重复。我建议这样回答：