Facebook爬虫没有';我不遵守我的重写规则
我的HTACCESS中有以下内容:Facebook爬虫没有';我不遵守我的重写规则,facebook,.htaccess,user-agent,Facebook,.htaccess,User Agent,我的HTACCESS中有以下内容: RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/) RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P] 在我的网站上使用facebook调试工具,我看到facebook在不被重写的情况下获得了url,这很奇怪。这是
RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/)
RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P]
在我的网站上使用facebook调试工具,我看到facebook在不被重写的情况下获得了url,这很奇怪。这是url:
http://lab.pre.rtve.es/carlos-v-ricardo/podcast/
?你知道爬虫为什么不遵循这个重定向吗??Facebook的用户代理名称是否已更改
我可以从官方文件中看到这应该是可行的
非常感谢。中还写了爬虫程序可以拥有
facebookexternalhit/1.1
(+)
用户代理,而您没有涵盖这一点。我以前尝试过,但没有成功。现在调试工具显示“解析输入URL时出错,没有缓存数据,或者没有刮取数据”。可能我的htaccess现在构建得不好。请尝试将facebookexternalhit/1.1替换为facebookexternalhit.*以匹配所有情况,并查看是否有效。如果没有,请检查apache日志并查看发送的标题。你是对的,我忘记检查apache日志了!!我现在两样都在试,干杯,伙计。我马上就回来,看看Apache是否提供了206 http代码。我以前从未见过这种情况,看起来像是“部分反应”。问题是facebook scraper获得的是我的index.html,而不是getSocial.php提供的内容。我将编辑我的问题,以便您可以查看我的HTACCESS现在的状态。仍然存在此问题:(我建议您为自己准备一个浏览器扩展,允许您操作请求参数,然后使用FB scraper根据文档使用的确切用户代理标题请求您的页面,并查看您从中得到了什么。此外,在服务器上启用重写日志,以查看在需要时到底发生了什么t到达您的服务器。