Curl 谷歌无法爬网,网站未更改。思想?

Curl 谷歌无法爬网,网站未更改。思想?,curl,web-crawler,google-webmaster-tools,googlebot,server-response,Curl,Web Crawler,Google Webmaster Tools,Googlebot,Server Response,我有一个免费的网站,利用Byethost,它利用iFastnet托管服务。有一段时间,我的网站已经被谷歌“去索引”,因为出于某种原因,它现在无法获取我网站的任何方面。我可以在任何web浏览器中访问我的网站而不会出现问题,并且我没有更改网站的任何代码。我的robots.txt甚至设置为 User-agent: * Allow: / 奇怪的是,谷歌结构化数据工具能够获取任何页面,但谷歌爬虫的其他方面都无法从站点获取资源 例如,当通过谷歌测试robots.txt时,它说 Yo

我有一个免费的网站,利用Byethost,它利用iFastnet托管服务。有一段时间,我的网站已经被谷歌“去索引”,因为出于某种原因,它现在无法获取我网站的任何方面。我可以在任何web浏览器中访问我的网站而不会出现问题,并且我没有更改网站的任何代码。我的robots.txt甚至设置为

    User-agent: *
    Allow: /
奇怪的是,谷歌结构化数据工具能够获取任何页面,但谷歌爬虫的其他方面都无法从站点获取资源

例如,当通过谷歌测试robots.txt时,它说

    You have a robots.txt file that we are currently unable to fetch. In such cases we stop crawling your site until we get hold of a robots.txt, or fall back to the last known good robots.txt file. Learn more.
所以很明显,谷歌在到达服务器并下载robots.txt资源之前就已经被封锁了

当我从我的计算机上卷曲站点时,它也会给我一个403错误。但是当我尝试在私有服务器上卷曲站点副本时,它会返回没有问题的页面这肯定与谷歌的问题有关。

但是我没有.htaccess或任何安全特性,比如启用了IP黑名单,所以这非常令人困惑

我与byethost的免费计划也不应该有cloudflare,因为它是一个高级功能

有谁能提供一些见解来解释我为什么会出现这403个错误?这也是谷歌无法访问该网站的原因吗?我怎样才能解决这个问题


谢谢

当您在浏览器中访问站点的robots.txt时会发生什么?显示robots.txt文件时不会出现问题。如果您无法通过cURL访问它,但可以在浏览器中访问,这似乎清楚地表明存在某种用户代理阻止。联系你的主机。我有免费的主机,所以我不知道他们能为我做多少:(。当然他们不会阻止谷歌的请求吗?正如前面提到的,谷歌结构化数据工具奇怪地能够获取页面。免费主机可以做任何事情。