如何使用Python从存储的HTML中提取

如何使用Python从存储的HTML中提取,python,python-2.7,web-scraping,python-newspaper,Python,Python 2.7,Web Scraping,Python Newspaper,我已爬网并将页面HTML存储在本地驱动器上。我现在需要提取的信息,如内容,标题,图像等。。。使用Python(0.1.2版)和Python(2.7.10版)。我在网上找不到与此相关的任何东西。如何实现上述目标?您可能已经解决了此问题。但这里有一种方法可以用报纸解析存储的HTML文件 你试过阅读吗?我不熟悉这个模块,但它可能有一些有用的功能information@PeterSteele:是的,我做了,但与从文档中保存的HTML内容提取无关,我的回答对您有帮助吗?也请看看我写的这个。 from ne

我已爬网并将页面HTML存储在本地驱动器上。我现在需要提取的信息,如内容,标题,图像等。。。使用Python(0.1.2版)和Python(2.7.10版)。我在网上找不到与此相关的任何东西。如何实现上述目标?

您可能已经解决了此问题。但这里有一种方法可以用报纸解析存储的HTML文件


你试过阅读吗?我不熟悉这个模块,但它可能有一些有用的功能information@PeterSteele:是的,我做了,但与从文档中保存的HTML内容提取无关,我的回答对您有帮助吗?也请看看我写的这个。
from newspaper import Article

article = Article('')
article.set_html(open("cnn_article.html").read())
article.parse()
title = article.title
authors = article.authors
text = article.text
keywords = article.meta_keywords
published_date = sorted({value for (key, value) in 
article.meta_data.items() if key == 'pubdate'})