.htaccess Cloudflare反向代理背后的Apache2;URL不适用于谷歌";获取失败:爬网异常

.htaccess Cloudflare反向代理背后的Apache2;URL不适用于谷歌";获取失败:爬网异常,.htaccess,apache2,reverse-proxy,cloudflare,google-search,.htaccess,Apache2,Reverse Proxy,Cloudflare,Google Search,在关闭所有防火墙设置的情况下,谷歌无法在Cloudflare反向代理后对我的WordPress站点进行爬网。这是坏的-我需要它能够爬行它 我在一个子域(blog.domain.com)上托管WordPress,并使用Cloudflare反向代理将WordPress内容传递到子文件夹(domain.com/resources)。主域由AWS Elastic Beanstalk托管,通过反向代理将博客请求定向到wordpress服务器,并按预期工作。浏览器能够通过代理完美地加载内容,唯一出现问题的代

在关闭所有防火墙设置的情况下,谷歌无法在Cloudflare反向代理后对我的WordPress站点进行爬网。这是坏的-我需要它能够爬行它

我在一个子域(blog.domain.com)上托管WordPress,并使用Cloudflare反向代理将WordPress内容传递到子文件夹(domain.com/resources)。主域由AWS Elastic Beanstalk托管,通过反向代理将博客请求定向到wordpress服务器,并按预期工作。浏览器能够通过代理完美地加载内容,唯一出现问题的代理是谷歌机器人。谷歌在抓取/访问blog.domain时没有被阻止-它只是在通过反向代理(domain.com/resources)访问内容时被阻止-这很糟糕,我不希望被阻止。所有.htaccess和robots.txt文件都允许所有bot通信,反向代理已关闭所有防火墙设置。是什么阻止谷歌通过反向代理访问我的博客

Apache2.htaccess:

# BEGIN WordPress
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress
我正在使用stock Apache2配置设置


预期结果是googlebot将不会被阻止/无法访问域子文件夹(domain.com/resources)上的“我的页面”,该文件夹使用反向代理,最终将被谷歌搜索引擎索引。

尝试将谷歌作为数字列入白名单。 以下是我发现的一些属于谷歌的数字。但不确定哪一个用于爬虫。请注意,如果您将整个AS编号列为白名单,如果AS编号中的任何IP地址被证明是恶意的(例如,攻击者使用Google Cloud Compute实例发起机器人攻击等),Cloudflare将无法再保护您的站点不受此影响,因为他们将假定您希望允许这些流量到达您的站点

Google ASN
https://ipinfo.io/AS396982
https://ipinfo.io/AS395973
https://ipinfo.io/AS36385
https://ipinfo.io/AS19527
https://ipinfo.io/AS16591
https://ipinfo.io/AS394699
https://ipinfo.io/AS36492
https://ipinfo.io/AS41264
https://ipinfo.io/AS36040
https://ipinfo.io/AS22577
https://ipinfo.io/AS45566
https://ipinfo.io/AS36384
https://ipinfo.io/AS15169
Google ASN
https://ipinfo.io/AS396982
https://ipinfo.io/AS395973
https://ipinfo.io/AS36385
https://ipinfo.io/AS19527
https://ipinfo.io/AS16591
https://ipinfo.io/AS394699
https://ipinfo.io/AS36492
https://ipinfo.io/AS41264
https://ipinfo.io/AS36040
https://ipinfo.io/AS22577
https://ipinfo.io/AS45566
https://ipinfo.io/AS36384
https://ipinfo.io/AS15169