Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/facebook/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Facebook爬虫没有';我不遵守我的重写规则_Facebook_.htaccess_User Agent - Fatal编程技术网

Facebook爬虫没有';我不遵守我的重写规则

Facebook爬虫没有';我不遵守我的重写规则,facebook,.htaccess,user-agent,Facebook,.htaccess,User Agent,我的HTACCESS中有以下内容: RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/) RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P] 在我的网站上使用facebook调试工具,我看到facebook在不被重写的情况下获得了url,这很奇怪。这是

我的HTACCESS中有以下内容:

RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit/1.1|Facebot|Twitterbot|Pinterest|Google.*snippet|/externalhit_uatext/)
RewriteRule /+(.*?)$ /api/getSocial.php?which=$1 [P]
在我的网站上使用facebook调试工具,我看到facebook在不被重写的情况下获得了url,这很奇怪。这是url:

http://lab.pre.rtve.es/carlos-v-ricardo/podcast/
?你知道爬虫为什么不遵循这个重定向吗??Facebook的用户代理名称是否已更改

我可以从官方文件中看到这应该是可行的

非常感谢。

中还写了爬虫程序可以拥有

facebookexternalhit/1.1 (+)


用户代理,而您没有涵盖这一点。

我以前尝试过,但没有成功。现在调试工具显示“解析输入URL时出错,没有缓存数据,或者没有刮取数据”。可能我的htaccess现在构建得不好。请尝试将facebookexternalhit/1.1替换为facebookexternalhit.*以匹配所有情况,并查看是否有效。如果没有,请检查apache日志并查看发送的标题。你是对的,我忘记检查apache日志了!!我现在两样都在试,干杯,伙计。我马上就回来,看看Apache是否提供了206 http代码。我以前从未见过这种情况,看起来像是“部分反应”。问题是facebook scraper获得的是我的index.html,而不是getSocial.php提供的内容。我将编辑我的问题,以便您可以查看我的HTACCESS现在的状态。仍然存在此问题:(我建议您为自己准备一个浏览器扩展,允许您操作请求参数,然后使用FB scraper根据文档使用的确切用户代理标题请求您的页面,并查看您从中得到了什么。此外,在服务器上启用重写日志,以查看在需要时到底发生了什么t到达您的服务器。