Web scraping 维基百科:“;较新形式的web抓取包括侦听来自web服务器的数据源。这是什么意思?

Web scraping 维基百科:“;较新形式的web抓取包括侦听来自web服务器的数据源。这是什么意思?,web-scraping,websocket,server,serversocket,Web Scraping,Websocket,Server,Serversocket,维基百科的页面上写着: 较新形式的web抓取涉及监听来自web服务器的数据源 这是什么意思 这涉及到哪些技术/框架?许多网页不仅仅是静态HTML,它们使用辅助通道(服务器推送、AJAX/WebSocket等)从服务器下载实时数据并动态更新页面内容,而无需执行整个页面刷新。有时,通过其他类型的提要(RSS、REST等)可以获得相同的数据,这些提要可供非web应用程序访问。感谢您的解释!我知道有很多内容需要学习如何使用python进行经典的抓取(书籍、MOOC…),但我不知道在哪里可以学习服务器推送

维基百科的页面上写着:

较新形式的web抓取涉及监听来自web服务器的数据源

这是什么意思


这涉及到哪些技术/框架?

许多网页不仅仅是静态HTML,它们使用辅助通道(服务器推送、AJAX/WebSocket等)从服务器下载实时数据并动态更新页面内容,而无需执行整个页面刷新。有时,通过其他类型的提要(RSS、REST等)可以获得相同的数据,这些提要可供非web应用程序访问。感谢您的解释!我知道有很多内容需要学习如何使用python进行经典的抓取(书籍、MOOC…),但我不知道在哪里可以学习服务器推送、AJAX/WebSocket抓取。你知道我在哪里可以学这些东西吗?我想你没有领会我的意思。在“经典”抓取中,您下载并解析一个HTML网页,它是为人类消费而设计的。AJAX/WebSockets/etc不会改变这一点,只会改变网页在下载之前获取数据的方式。基本上,您只是为了提取数据而假装成一个web浏览器和一个人。而在REST/etc中,相同的数据可能会以一种更结构化的格式提供,这种格式是为应用程序使用而设计的(XML、JSON等),因此不需要伪装。好的,我想我明白了。如果我使用scrapy,我会“监听来自web服务器的数据源”?如果我使用的是无头导航器也是一样的?很多网页不仅仅是静态HTML,它们还使用辅助通道(服务器推送、AJAX/WebSockets等)从服务器下载实时数据并动态更新页面内容,而无需执行整页刷新。有时,通过其他类型的提要(RSS、REST等)可以获得相同的数据,这些提要可供非web应用程序访问。感谢您的解释!我知道有很多内容需要学习如何使用python进行经典的抓取(书籍、MOOC…),但我不知道在哪里可以学习服务器推送、AJAX/WebSocket抓取。你知道我在哪里可以学这些东西吗?我想你没有领会我的意思。在“经典”抓取中,您下载并解析一个HTML网页,它是为人类消费而设计的。AJAX/WebSockets/etc不会改变这一点,只会改变网页在下载之前获取数据的方式。基本上,您只是为了提取数据而假装成一个web浏览器和一个人。而在REST/etc中,相同的数据可能会以一种更结构化的格式提供,这种格式是为应用程序使用而设计的(XML、JSON等),因此不需要伪装。好的,我想我明白了。如果我使用scrapy,我会“监听来自web服务器的数据源”?如果我用的是无头导航器,也是一样吗?