Curl 谷歌无法爬网，网站未更改。思想？_Curl_Web Crawler_Google Webmaster Tools_Googlebot_Server Response

Curl 谷歌无法爬网，网站未更改。思想？

curl web-crawler

Curl 谷歌无法爬网，网站未更改。思想？,curl,web-crawler,google-webmaster-tools,googlebot,server-response,Curl,Web Crawler,Google Webmaster Tools,Googlebot,Server Response,我有一个免费的网站，利用Byethost，它利用iFastnet托管服务。有一段时间，我的网站已经被谷歌“去索引”，因为出于某种原因，它现在无法获取我网站的任何方面。我可以在任何web浏览器中访问我的网站而不会出现问题，并且我没有更改网站的任何代码。我的robots.txt甚至设置为 User-agent: * Allow: / 奇怪的是，谷歌结构化数据工具能够获取任何页面，但谷歌爬虫的其他方面都无法从站点获取资源例如，当通过谷歌测试robots.txt时，它说 Yo

我有一个免费的网站，利用Byethost，它利用iFastnet托管服务。有一段时间，我的网站已经被谷歌“去索引”，因为出于某种原因，它现在无法获取我网站的任何方面。我可以在任何web浏览器中访问我的网站而不会出现问题，并且我没有更改网站的任何代码。我的robots.txt甚至设置为

    User-agent: *
    Allow: /

奇怪的是，谷歌结构化数据工具能够获取任何页面，但谷歌爬虫的其他方面都无法从站点获取资源

例如，当通过谷歌测试robots.txt时，它说

    You have a robots.txt file that we are currently unable to fetch. In such cases we stop crawling your site until we get hold of a robots.txt, or fall back to the last known good robots.txt file. Learn more.

所以很明显，谷歌在到达服务器并下载robots.txt资源之前就已经被封锁了

当我从我的计算机上卷曲站点时，它也会给我一个403错误。但是当我尝试在私有服务器上卷曲站点副本时，它会返回没有问题的页面这肯定与谷歌的问题有关。

但是我没有.htaccess或任何安全特性，比如启用了IP黑名单，所以这非常令人困惑

我与byethost的免费计划也不应该有cloudflare，因为它是一个高级功能

有谁能提供一些见解来解释我为什么会出现这403个错误？这也是谷歌无法访问该网站的原因吗？我怎样才能解决这个问题

谢谢

当您在浏览器中访问站点的robots.txt时会发生什么？显示robots.txt文件时不会出现问题。如果您无法通过cURL访问它，但可以在浏览器中访问，这似乎清楚地表明存在某种用户代理阻止。联系你的主机。我有免费的主机，所以我不知道他们能为我做多少：（。当然他们不会阻止谷歌的请求吗？正如前面提到的，谷歌结构化数据工具奇怪地能够获取页面。免费主机可以做任何事情。