Search 爬虫实例_Search_Web Crawler

Search 爬虫实例

search web-crawler

Search 爬虫实例,search,web-crawler,Search,Web Crawler,我正在构建一个大规模的网络爬虫程序，当在位于internet服务器场的专用网络服务器上运行一个网络时，有多少实例是最佳的。要创建一个大规模的爬虫程序，您必须处理一些问题，如： •无法将所有信息保存在一个数据库中 •内存不足，无法处理庞大的索引 •多线程性能和并发性 •爬虫陷阱（通过更改URL、日历、会话ID等创建的无限循环）和重复内容 •从多台计算机爬网 •格式错误的HTML代码 •来自服务器的持续http错误 •无压缩的数据库，使您对空间的需求增加约8倍 •重新制定例行程序和优先事项 •使用压

我正在构建一个大规模的网络爬虫程序，当在位于internet服务器场的专用网络服务器上运行一个网络时，有多少实例是最佳的。要创建一个大规模的爬虫程序，您必须处理一些问题，如：

•无法将所有信息保存在一个数据库中

•内存不足，无法处理庞大的索引

•多线程性能和并发性

•爬虫陷阱（通过更改URL、日历、会话ID等创建的无限循环）和重复内容

•从多台计算机爬网

•格式错误的HTML代码

•来自服务器的持续http错误

•无压缩的数据库，使您对空间的需求增加约8倍

•重新制定例行程序和优先事项

•使用压缩请求（Deflate/gzip）（适用于任何类型的爬虫程序）

还有一些重要的事情

•尊重robots.txt

•每个请求都有一个爬虫延迟，以避免窒息web服务器

最佳线程配置将取决于您的代码。。我正在用.net运行100进程。我建议您使用schedule类来避免不必要的开放线程

另外，如果您使用5个线程，则需要几年时间才能实现“大规模”网络爬网。

您打算爬网吗？还是内部网？一旦每两分钟？为了什么？你的问题太模糊了，无法认真回答。请详细说明一下。半垂直搜索。使用自定义索引格式在internet上爬网。我的目标是每周索引一次。使用libcurl、libxml2和sqlite（用于url队列）。最近的测试运行证明，使用5个线程非常稳定（带有单线程索引器的多线程爬虫程序）