如何使用Python从存储的HTML中提取_Python_Python 2.7_Web Scraping_Python Newspaper

如何使用Python从存储的HTML中提取

python python-2.7 web-scraping

如何使用Python从存储的HTML中提取,python,python-2.7,web-scraping,python-newspaper,Python,Python 2.7,Web Scraping,Python Newspaper,我已爬网并将页面HTML存储在本地驱动器上。我现在需要提取的信息，如内容，标题，图像等。。。使用Python（0.1.2版）和Python（2.7.10版）。我在网上找不到与此相关的任何东西。如何实现上述目标？您可能已经解决了此问题。但这里有一种方法可以用报纸解析存储的HTML文件你试过阅读吗？我不熟悉这个模块，但它可能有一些有用的功能information@PeterSteele：是的，我做了，但与从文档中保存的HTML内容提取无关，我的回答对您有帮助吗？也请看看我写的这个。 from ne

我已爬网并将页面HTML存储在本地驱动器上。我现在需要提取的信息，如内容，标题，图像等。。。使用Python（0.1.2版）和Python（2.7.10版）。我在网上找不到与此相关的任何东西。如何实现上述目标？

您可能已经解决了此问题。但这里有一种方法可以用报纸解析存储的HTML文件

你试过阅读吗？我不熟悉这个模块，但它可能有一些有用的功能information@PeterSteele：是的，我做了，但与从文档中保存的HTML内容提取无关，我的回答对您有帮助吗？也请看看我写的这个。

from newspaper import Article

article = Article('')
article.set_html(open("cnn_article.html").read())
article.parse()
title = article.title
authors = article.authors
text = article.text
keywords = article.meta_keywords
published_date = sorted({value for (key, value) in 
article.meta_data.items() if key == 'pubdate'})