Web scraping 维基百科：“；较新形式的web抓取包括侦听来自web服务器的数据源。这是什么意思？_Web Scraping_Websocket_Server_Serversocket

Web scraping 维基百科：“；较新形式的web抓取包括侦听来自web服务器的数据源。这是什么意思？

web-scraping websocket server

Web scraping 维基百科：“；较新形式的web抓取包括侦听来自web服务器的数据源。这是什么意思？,web-scraping,websocket,server,serversocket,Web Scraping,Websocket,Server,Serversocket,维基百科的页面上写着：较新形式的web抓取涉及监听来自web服务器的数据源这是什么意思这涉及到哪些技术/框架？许多网页不仅仅是静态HTML，它们使用辅助通道（服务器推送、AJAX/WebSocket等）从服务器下载实时数据并动态更新页面内容，而无需执行整个页面刷新。有时，通过其他类型的提要（RSS、REST等）可以获得相同的数据，这些提要可供非web应用程序访问。感谢您的解释！我知道有很多内容需要学习如何使用python进行经典的抓取（书籍、MOOC…），但我不知道在哪里可以学习服务器推送

维基百科的页面上写着：

较新形式的web抓取涉及监听来自web服务器的数据源

这是什么意思

这涉及到哪些技术/框架？

许多网页不仅仅是静态HTML，它们使用辅助通道（服务器推送、AJAX/WebSocket等）从服务器下载实时数据并动态更新页面内容，而无需执行整个页面刷新。有时，通过其他类型的提要（RSS、REST等）可以获得相同的数据，这些提要可供非web应用程序访问。感谢您的解释！我知道有很多内容需要学习如何使用python进行经典的抓取（书籍、MOOC…），但我不知道在哪里可以学习服务器推送、AJAX/WebSocket抓取。你知道我在哪里可以学这些东西吗？我想你没有领会我的意思。在“经典”抓取中，您下载并解析一个HTML网页，它是为人类消费而设计的。AJAX/WebSockets/etc不会改变这一点，只会改变网页在下载之前获取数据的方式。基本上，您只是为了提取数据而假装成一个web浏览器和一个人。而在REST/etc中，相同的数据可能会以一种更结构化的格式提供，这种格式是为应用程序使用而设计的（XML、JSON等），因此不需要伪装。好的，我想我明白了。如果我使用scrapy，我会“监听来自web服务器的数据源”？如果我使用的是无头导航器也是一样的？很多网页不仅仅是静态HTML，它们还使用辅助通道（服务器推送、AJAX/WebSockets等）从服务器下载实时数据并动态更新页面内容，而无需执行整页刷新。有时，通过其他类型的提要（RSS、REST等）可以获得相同的数据，这些提要可供非web应用程序访问。感谢您的解释！我知道有很多内容需要学习如何使用python进行经典的抓取（书籍、MOOC…），但我不知道在哪里可以学习服务器推送、AJAX/WebSocket抓取。你知道我在哪里可以学这些东西吗？我想你没有领会我的意思。在“经典”抓取中，您下载并解析一个HTML网页，它是为人类消费而设计的。AJAX/WebSockets/etc不会改变这一点，只会改变网页在下载之前获取数据的方式。基本上，您只是为了提取数据而假装成一个web浏览器和一个人。而在REST/etc中，相同的数据可能会以一种更结构化的格式提供，这种格式是为应用程序使用而设计的（XML、JSON等），因此不需要伪装。好的，我想我明白了。如果我使用scrapy，我会“监听来自web服务器的数据源”？如果我用的是无头导航器，也是一样吗？