Python 比NLTK更快地从HTML中提取文本?
我们使用NLTK从HTML页面提取文本,但我们只需要最简单的文本分析,例如字数 有没有一种更快的方法可以使用Python从HTML中提取可见文本Python 比NLTK更快地从HTML中提取文本?,python,html,nltk,text-extraction,Python,Html,Nltk,Text Extraction,我们使用NLTK从HTML页面提取文本,但我们只需要最简单的文本分析,例如字数 有没有一种更快的方法可以使用Python从HTML中提取可见文本 在最低程度上理解HTML(最好是CSS),如可见/不可见节点、图像的alt文本等,将是另外一件好事。在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup from bs4 import BeautifulSoup soup = BeautifulSoup(html) print soup.text 您可以在此处找到其文档: 可以忽
在最低程度上理解HTML(最好是CSS),如可见/不可见节点、图像的alt文本等,将是另外一件好事。在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text
您可以在此处找到其文档:
可以忽略基于属性的元素。至于理解外部样式表,我不太确定。但是,您可以在那里做一些不会太慢的事情(取决于页面),即使用phantomjs之类的东西呈现页面,然后选择呈现的文本:)如何使用NLTK处理HTML页面?nltk过去有一个
clean_html()
函数,但回到2014年,它把工作留给了beautifulsou
@alexis:Hmm,一个好问题!在进一步挖掘源代码之后,我发现nltk
仅用于标记html2text
提取的文本!这完全改变了问题。