Web 有没有努力建立一个刮板和机器人频繁的互联网?

Web 有没有努力建立一个刮板和机器人频繁的互联网?,web,open-source,web-scraping,semantic-web,Web,Open Source,Web Scraping,Semantic Web,我正在为一家公司做一个报废项目。我使用了Python selenium、mechanize、BeautifulSoup4等库,并成功地将数据放入MySQL数据库并生成了他们想要的报告 但我很好奇:为什么网站的结构并没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面,即使它们的用户名\密码字段的命名不同。此外,其他元素也可以任意命名并放置在任何位置 我能看到的一个明显原因是,机器人会占用大量带宽,网站基本上是针对人类用户的。第二个原因可能是

我正在为一家公司做一个报废项目。我使用了Python selenium、mechanize、BeautifulSoup4等库,并成功地将数据放入MySQL数据库并生成了他们想要的报告

但我很好奇:为什么网站的结构并没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面,即使它们的用户名\密码字段的命名不同。此外,其他元素也可以任意命名并放置在任何位置

我能看到的一个明显原因是,机器人会占用大量带宽,网站基本上是针对人类用户的。第二个原因可能是因为网站想要展示广告。可能还有其他原因

如果网站不必提供API,并且有一个单一的bot\scraper登录框架,这不是更好吗。例如,每个网站都可以有一个scraper友好的版本,该版本的结构和名称都符合普遍认可的标准规范。还有一个页面,显示刮板的帮助功能。要访问此版本的网站,bot\scraper必须自行注册

这将为程序员打开一个完全不同的互联网。例如,有人可以编写一个scraper,它可以监视漏洞和利用列表网站进行攻击,并自动关闭用户系统上的安全漏洞。(为此,这些网站必须创建一个版本,其中包含可直接应用的此类数据。如补丁和应用位置) 所有这些都可以由一个普通程序员轻松完成。在黑暗面,你可以编写一个恶意软件,它可以用新的攻击策略更新自己

我知道在其他网站上使用开放式身份验证可以使用Facebook或Google登录。但这只是刮擦中的一件小事

我的问题归根结底是,为什么社区中没有这样的努力?如果有,请告诉我

我搜索了堆栈溢出,但没有找到类似的。我不确定这种问题是否适合堆栈溢出。如果没有,请参考正确的堆栈交换论坛。 如果有不符合社区标准的问题,我将编辑该问题。但这是一个真正的问题


编辑:多亏了@b.j.g,我才得到了答案。W3C有这样一个努力叫做(无论如何,我相信谷歌有一天会劫持整个互联网,并在我有生之年使之成为可能)

编辑:我想你要找的是

你假设人们希望他们的数据被删除。实际上,人们获取的数据通常是发布者的专有数据,而在获取数据时。。。他们失去了数据的排他性


我过去在抓取瑜伽时间表时遇到了麻烦,我得出的结论是,开发人员故意让抓取变得困难,因此第三方无法轻松使用他们的数据。

这对所有网站都是真的吗?不一定。YQL使用相同的漏洞。不,我不认为这适用于所有网站。但你也要求开发者为他人做额外的工作。。。不太可能。如果人们希望数据结构化,它通常就在那里,比如RSS提要,或者几乎任何XML格式的东西。你应该研究一下。我知道XML和XPATH。是的,我明白你的意思了@b.j.g。但你不同意这是一个发展,只会使未来的互联网超级复制可怕?它将成为一个真正的知识网络。也许这也会对人工智能研究有所帮助?请参阅我答案顶部的编辑。