Facebook爬虫没有'；我不遵守我的重写规则_Facebook_.htaccess_User Agent

Facebook爬虫没有'；我不遵守我的重写规则

facebook .htaccess

Facebook爬虫没有'；我不遵守我的重写规则,facebook,.htaccess,user-agent,Facebook,.htaccess,User Agent,我的HTACCESS中有以下内容： RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/) RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P] 在我的网站上使用facebook调试工具，我看到facebook在不被重写的情况下获得了url，这很奇怪。这是

我的HTACCESS中有以下内容：

RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/)
RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P]

在我的网站上使用facebook调试工具，我看到facebook在不被重写的情况下获得了url，这很奇怪。这是url:

http://lab.pre.rtve.es/carlos-v-ricardo/podcast/

？你知道爬虫为什么不遵循这个重定向吗？？Facebook的用户代理名称是否已更改

我可以从官方文件中看到这应该是可行的

非常感谢。

中还写了爬虫程序可以拥有

facebookexternalhit/1.1 （+）

用户代理，而您没有涵盖这一点。

我以前尝试过，但没有成功。现在调试工具显示“解析输入URL时出错，没有缓存数据，或者没有刮取数据”。可能我的htaccess现在构建得不好。请尝试将facebookexternalhit/1.1替换为facebookexternalhit.*以匹配所有情况，并查看是否有效。如果没有，请检查apache日志并查看发送的标题。你是对的，我忘记检查apache日志了！！我现在两样都在试，干杯，伙计。我马上就回来，看看Apache是否提供了206 http代码。我以前从未见过这种情况，看起来像是“部分反应”。问题是facebook scraper获得的是我的index.html，而不是getSocial.php提供的内容。我将编辑我的问题，以便您可以查看我的HTACCESS现在的状态。仍然存在此问题：（我建议您为自己准备一个浏览器扩展，允许您操作请求参数，然后使用FB scraper根据文档使用的确切用户代理标题请求您的页面，并查看您从中得到了什么。此外，在服务器上启用重写日志，以查看在需要时到底发生了什么t到达您的服务器。