Search 爬虫实例

Search 爬虫实例,search,web-crawler,Search,Web Crawler,我正在构建一个大规模的网络爬虫程序,当在位于internet服务器场的专用网络服务器上运行一个网络时,有多少实例是最佳的。要创建一个大规模的爬虫程序,您必须处理一些问题,如: •无法将所有信息保存在一个数据库中 •内存不足,无法处理庞大的索引 •多线程性能和并发性 •爬虫陷阱(通过更改URL、日历、会话ID等创建的无限循环)和重复内容 •从多台计算机爬网 •格式错误的HTML代码 •来自服务器的持续http错误 •无压缩的数据库,使您对空间的需求增加约8倍 •重新制定例行程序和优先事项 •使用压

我正在构建一个大规模的网络爬虫程序,当在位于internet服务器场的专用网络服务器上运行一个网络时,有多少实例是最佳的。要创建一个大规模的爬虫程序,您必须处理一些问题,如:

•无法将所有信息保存在一个数据库中

•内存不足,无法处理庞大的索引

•多线程性能和并发性

•爬虫陷阱(通过更改URL、日历、会话ID等创建的无限循环)和重复内容

•从多台计算机爬网

•格式错误的HTML代码

•来自服务器的持续http错误

•无压缩的数据库,使您对空间的需求增加约8倍

•重新制定例行程序和优先事项

•使用压缩请求(Deflate/gzip)(适用于任何类型的爬虫程序)

还有一些重要的事情

•尊重robots.txt

•每个请求都有一个爬虫延迟,以避免窒息web服务器

最佳线程配置将取决于您的代码。。我正在用.net运行100进程。我建议您使用schedule类来避免不必要的开放线程


另外,如果您使用5个线程,则需要几年时间才能实现“大规模”网络爬网。

您打算爬网吗?还是内部网?一旦每两分钟?为了什么?你的问题太模糊了,无法认真回答。请详细说明一下。半垂直搜索。使用自定义索引格式在internet上爬网。我的目标是每周索引一次。使用libcurl、libxml2和sqlite(用于url队列)。最近的测试运行证明,使用5个线程非常稳定(带有单线程索引器的多线程爬虫程序)