Python 比NLTK更快地从HTML中提取文本？_Python_Html_Nltk_Text Extraction

Python 比NLTK更快地从HTML中提取文本？

python html

Python 比NLTK更快地从HTML中提取文本？,python,html,nltk,text-extraction,Python,Html,Nltk,Text Extraction,我们使用NLTK从HTML页面提取文本，但我们只需要最简单的文本分析，例如字数有没有一种更快的方法可以使用Python从HTML中提取可见文本在最低程度上理解HTML（最好是CSS），如可见/不可见节点、图像的alt文本等，将是另外一件好事。在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup from bs4 import BeautifulSoup soup = BeautifulSoup(html) print soup.text 您可以在此处找到其文档：可以忽

我们使用NLTK从HTML页面提取文本，但我们只需要最简单的文本分析，例如字数

有没有一种更快的方法可以使用Python从HTML中提取可见文本

在最低程度上理解HTML（最好是CSS），如可见/不可见节点、图像的alt文本等，将是另外一件好事。

在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text

您可以在此处找到其文档：

可以忽略基于属性的元素。至于理解外部样式表，我不太确定。但是，您可以在那里做一些不会太慢的事情（取决于页面），即使用phantomjs之类的东西呈现页面，然后选择呈现的文本：）

如何使用NLTK处理HTML页面？nltk过去有一个

clean_html（）

函数，但回到2014年，它把工作留给了

beautifulsou

@alexis:Hmm，一个好问题！在进一步挖掘源代码之后，我发现

nltk

仅用于标记

html2text

提取的文本！这完全改变了问题。