Python 我应该使用屏幕刮刀或API从网站读取数据吗

Python 我应该使用屏幕刮刀或API从网站读取数据吗,python,html,screen-scraping,web-scraping,Python,Html,Screen Scraping,Web Scraping,我正在构建一个web应用程序作为大学项目(使用Python),在这里我需要阅读网站上的内容。它可以是互联网上的任何网站 起初,我想使用BeautifulSoup、lxml等屏幕抓取器来读取内容(作者编写的数据),但我无法基于一种逻辑来搜索内容,因为每个网站都是根据不同的标准开发的 因此,我想使用RSS/Atom(使用通用提要解析器),但我只能得到内容摘要!但我想要所有的内容,而不仅仅是摘要 那么,有没有一种方法可以让我们用lib(如BeautifulSoup、lxml等)阅读网站的内容 或者我应

我正在构建一个web应用程序作为大学项目(使用Python),在这里我需要阅读网站上的内容。它可以是互联网上的任何网站

起初,我想使用BeautifulSoup、lxml等屏幕抓取器来读取内容(作者编写的数据),但我无法基于一种逻辑来搜索内容,因为每个网站都是根据不同的标准开发的

因此,我想使用RSS/Atom(使用通用提要解析器),但我只能得到内容摘要!但我想要所有的内容,而不仅仅是摘要

那么,有没有一种方法可以让我们用lib(如BeautifulSoup、lxml等)阅读网站的内容

或者我应该使用网站提供的API

我的工作变得很简单,如果它是一个博客,因为我可以使用谷歌数据API,但问题是,我是否需要为同一工作的每个不同API编写代码


最好的解决方案是什么?

使用网站的公共API(如果存在)是目前为止最好的解决方案。这就是API存在的原因,它是网站管理员说“使用我们的内容”的方式。刮削可能一天起作用,第二天起作用,但这并不意味着网站管理员同意重复使用其内容。

使用网站的公共API(如果存在)是目前为止最好的解决方案。这就是API存在的原因,它是网站管理员说“使用我们的内容”的方式。刮取可能一天起作用,第二天起作用,但这并不意味着网站管理员同意重复使用其内容。

您可以查看内容提取库-我使用过(php)和(java)
两者都有可用的web服务,因此您可以轻松测试它是否满足您的要求。您还可以自己下载并运行它们,并在各个站点上进一步修改其行为。

您可以查看内容提取库-我使用过(php)和(java)
两者都有可用的web服务,因此您可以轻松测试它是否满足您的要求。您也可以自己下载并运行它们,并在各个站点上进一步修改其行为。

请检查:Python中可能有类似的系统,或者您可以利用它。请检查:Python中可能有类似的系统,或者您可以利用它。我正在找一个Python libI。我尝试了
全文RSS
。。它只是显示文本,但我需要图像/幻灯片。。我正在寻找一个python libI,我尝试了
全文RSS
。。它只是显示文本,但我需要图像/幻灯片。。一切。