为什么在爬虫架构中需要DNS解析器?

为什么在爬虫架构中需要DNS解析器?,dns,network-programming,web-crawler,Dns,Network Programming,Web Crawler,在我读过的每一篇关于爬虫方案的论文中,我都看到一个重要的组件是DNS解析器 我的问题是: 为什么必须这样做?我们就不能向您提出请求吗 DNS解析是web爬网中众所周知的瓶颈。由于 域名服务的分布式性质,DNS解析可能 需要通过互联网进行多次请求和往返, 需要几秒钟,有时甚至更长。马上,这就开始了 危及我们每秒获取数百个文档的目标 DNS解析还有另一个重要困难;查找 标准库中的实现(可能被任何人使用 开发爬虫程序)通常是同步的。这意味着 向域名服务、其他爬虫线程发出请求 该节点将被阻止,直到第一个

在我读过的每一篇关于爬虫方案的论文中,我都看到一个重要的组件是DNS解析器

我的问题是:

为什么必须这样做?我们就不能向您提出请求吗

DNS解析是web爬网中众所周知的瓶颈。由于 域名服务的分布式性质,DNS解析可能 需要通过互联网进行多次请求和往返, 需要几秒钟,有时甚至更长。马上,这就开始了 危及我们每秒获取数百个文档的目标

DNS解析还有另一个重要困难;查找 标准库中的实现(可能被任何人使用 开发爬虫程序)通常是同步的。这意味着 向域名服务、其他爬虫线程发出请求 该节点将被阻止,直到第一个请求完成。到 为了避免这种情况,大多数网络爬虫将自己的DNS解析器实现为 爬虫程序的一个组件