Web 有没有努力建立一个刮板和机器人频繁的互联网？_Web_Open Source_Web Scraping_Semantic Web

Web 有没有努力建立一个刮板和机器人频繁的互联网？

web open-source web-scraping

Web 有没有努力建立一个刮板和机器人频繁的互联网？,web,open-source,web-scraping,semantic-web,Web,Open Source,Web Scraping,Semantic Web,我正在为一家公司做一个报废项目。我使用了Python selenium、mechanize、BeautifulSoup4等库，并成功地将数据放入MySQL数据库并生成了他们想要的报告但我很好奇：为什么网站的结构并没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面，即使它们的用户名\密码字段的命名不同。此外，其他元素也可以任意命名并放置在任何位置我能看到的一个明显原因是，机器人会占用大量带宽，网站基本上是针对人类用户的。第二个原因可能是

我正在为一家公司做一个报废项目。我使用了Python selenium、mechanize、BeautifulSoup4等库，并成功地将数据放入MySQL数据库并生成了他们想要的报告

但我很好奇：为什么网站的结构并没有标准化。每个站点的用户名\密码字段都有不同的名称\ id。我查看了Facebook和Google登录页面，即使它们的用户名\密码字段的命名不同。此外，其他元素也可以任意命名并放置在任何位置

我能看到的一个明显原因是，机器人会占用大量带宽，网站基本上是针对人类用户的。第二个原因可能是因为网站想要展示广告。可能还有其他原因

如果网站不必提供API，并且有一个单一的bot\scraper登录框架，这不是更好吗。例如，每个网站都可以有一个scraper友好的版本，该版本的结构和名称都符合普遍认可的标准规范。还有一个页面，显示刮板的帮助功能。要访问此版本的网站，bot\scraper必须自行注册

这将为程序员打开一个完全不同的互联网。例如，有人可以编写一个scraper，它可以监视漏洞和利用列表网站进行攻击，并自动关闭用户系统上的安全漏洞。（为此，这些网站必须创建一个版本，其中包含可直接应用的此类数据。如补丁和应用位置）所有这些都可以由一个普通程序员轻松完成。在黑暗面，你可以编写一个恶意软件，它可以用新的攻击策略更新自己

我知道在其他网站上使用开放式身份验证可以使用Facebook或Google登录。但这只是刮擦中的一件小事

我的问题归根结底是，为什么社区中没有这样的努力？如果有，请告诉我

我搜索了堆栈溢出，但没有找到类似的。我不确定这种问题是否适合堆栈溢出。如果没有，请参考正确的堆栈交换论坛。如果有不符合社区标准的问题，我将编辑该问题。但这是一个真正的问题

编辑：多亏了@b.j.g，我才得到了答案。W3C有这样一个努力叫做（无论如何，我相信谷歌有一天会劫持整个互联网，并在我有生之年使之成为可能）

编辑：我想你要找的是

你假设人们希望他们的数据被删除。实际上，人们获取的数据通常是发布者的专有数据，而在获取数据时。。。他们失去了数据的排他性

我过去在抓取瑜伽时间表时遇到了麻烦，我得出的结论是，开发人员故意让抓取变得困难，因此第三方无法轻松使用他们的数据。

这对所有网站都是真的吗？不一定。YQL使用相同的漏洞。不，我不认为这适用于所有网站。但你也要求开发者为他人做额外的工作。。。不太可能。如果人们希望数据结构化，它通常就在那里，比如RSS提要，或者几乎任何XML格式的东西。你应该研究一下。我知道XML和XPATH。是的，我明白你的意思了@b.j.g。但你不同意这是一个发展，只会使未来的互联网超级复制可怕？它将成为一个真正的知识网络。也许这也会对人工智能研究有所帮助？请参阅我答案顶部的编辑。