Search 谷歌（和其他SEs）如何找到网页供网络爬虫索引？_Search_Web Crawler_Search Engine

Search 谷歌（和其他SEs）如何找到网页供网络爬虫索引？

search web-crawler

Search 谷歌（和其他SEs）如何找到网页供网络爬虫索引？,search,web-crawler,search-engine,Search,Web Crawler,Search Engine,当您构建web爬虫时，您定义了一个页面url，它将贯穿此页面和此页面上的所有链接，等等。。但是什么是被搜索引擎索引的呢？我的意思是，他们不能只是在url中打印万维网，所有的网站都会被爬网。。。那么基本上它们在爬行什么呢我还想知道，如果我抓取一个网站，它会被认为是DOS攻击吗？我没有恶意，我只是想收集信息。那么，作为一个发起拒绝服务攻击的人，我应该担心被指责吗？每个搜索引擎都有一组不同的索引。如果我们知道我们将没有搜索引擎优化行业。通常，他们会查看显示的文本、元数据、标题和Alt属性。基于

当您构建web爬虫时，您定义了一个页面url，它将贯穿此页面和此页面上的所有链接，等等。。但是什么是被搜索引擎索引的呢？我的意思是，他们不能只是在url中打印万维网，所有的网站都会被爬网。。。那么基本上它们在爬行什么呢

我还想知道，如果我抓取一个网站，它会被认为是DOS攻击吗？

我没有恶意，我只是想收集信息。那么，作为一个发起拒绝服务攻击的人，我应该担心被指责吗？

每个搜索引擎都有一组不同的索引。如果我们知道我们将没有搜索引擎优化行业。通常，他们会查看显示的文本、元数据、标题和Alt属性。基于样式的标记，文本被赋予不同的优先级——因此H1标记将为其内容添加权重，从而使其被认为是更匹配的

对站点进行爬网不是DoS，除非您可能从许多客户端发出许多重复和不必要的请求

此外，爬网过程与您提到的完全相同。URL由网站所有者作为起点提交。然后对所有链接进行爬网-经常重新访问页面以更新新内容。大多数网站都会包含robots.txt文件，告诉爬虫它能看到什么。这取决于爬虫的开发者来决定他们是否尊重它