Search 谷歌(和其他SEs)如何找到网页供网络爬虫索引?

Search 谷歌(和其他SEs)如何找到网页供网络爬虫索引?,search,web-crawler,search-engine,Search,Web Crawler,Search Engine,当您构建web爬虫时,您定义了一个页面url,它将贯穿此页面和此页面上的所有链接,等等。。 但是什么是被搜索引擎索引的呢?我的意思是,他们不能只是在url中打印万维网,所有的网站都会被爬网。。。 那么基本上它们在爬行什么呢 我还想知道,如果我抓取一个网站,它会被认为是DOS攻击吗? 我没有恶意,我只是想收集信息。那么,作为一个发起拒绝服务攻击的人,我应该担心被指责吗?每个搜索引擎都有一组不同的索引。如果我们知道我们将没有搜索引擎优化行业。通常,他们会查看显示的文本、元数据、标题和Alt属性。基于

当您构建web爬虫时,您定义了一个页面url,它将贯穿此页面和此页面上的所有链接,等等。。 但是什么是被搜索引擎索引的呢?我的意思是,他们不能只是在url中打印万维网,所有的网站都会被爬网。。。 那么基本上它们在爬行什么呢

我还想知道,如果我抓取一个网站,它会被认为是DOS攻击吗?
我没有恶意,我只是想收集信息。那么,作为一个发起拒绝服务攻击的人,我应该担心被指责吗?

每个搜索引擎都有一组不同的索引。如果我们知道我们将没有搜索引擎优化行业。通常,他们会查看显示的文本、元数据、标题和Alt属性。基于样式的标记,文本被赋予不同的优先级——因此H1标记将为其内容添加权重,从而使其被认为是更匹配的

对站点进行爬网不是DoS,除非您可能从许多客户端发出许多重复和不必要的请求

此外,爬网过程与您提到的完全相同。URL由网站所有者作为起点提交。然后对所有链接进行爬网-经常重新访问页面以更新新内容。大多数网站都会包含robots.txt文件,告诉爬虫它能看到什么。这取决于爬虫的开发者来决定他们是否尊重它