Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/330.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 比NLTK更快地从HTML中提取文本?_Python_Html_Nltk_Text Extraction - Fatal编程技术网

Python 比NLTK更快地从HTML中提取文本?

Python 比NLTK更快地从HTML中提取文本?,python,html,nltk,text-extraction,Python,Html,Nltk,Text Extraction,我们使用NLTK从HTML页面提取文本,但我们只需要最简单的文本分析,例如字数 有没有一种更快的方法可以使用Python从HTML中提取可见文本 在最低程度上理解HTML(最好是CSS),如可见/不可见节点、图像的alt文本等,将是另外一件好事。在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup from bs4 import BeautifulSoup soup = BeautifulSoup(html) print soup.text 您可以在此处找到其文档: 可以忽

我们使用NLTK从HTML页面提取文本,但我们只需要最简单的文本分析,例如字数

有没有一种更快的方法可以使用Python从HTML中提取可见文本


在最低程度上理解HTML(最好是CSS),如可见/不可见节点、图像的alt文本等,将是另外一件好事。

在我以前的工作场所遇到了同样的问题。你会想看看beautifulsoup

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print soup.text
您可以在此处找到其文档:


可以忽略基于属性的元素。至于理解外部样式表,我不太确定。但是,您可以在那里做一些不会太慢的事情(取决于页面),即使用phantomjs之类的东西呈现页面,然后选择呈现的文本:)

如何使用NLTK处理HTML页面?nltk过去有一个
clean_html()
函数,但回到2014年,它把工作留给了
beautifulsou
@alexis:Hmm,一个好问题!在进一步挖掘源代码之后,我发现
nltk
仅用于标记
html2text
提取的文本!这完全改变了问题。