Facebook 刮刀在超过约390KB的文件上失败

Facebook 刮刀在超过约390KB的文件上失败,facebook,debugging,facebook-opengraph,scraper,Facebook,Debugging,Facebook Opengraph,Scraper,Facebook的URL scapper有大小限制吗?我们在一个网站上有几本书。那些HMTL文件大小小于一定大小(~390KB)的文件会被刮取并正确读取,但较大的文件则不会。这些较大的项目将获得200响应代码,并打开规范URL 所有这些页面都是使用相同的模板构建的,唯一的区别是每本书内容的大小以及每本书与网站上其他页面的链接数量 单击规范URL 在Firefox中打开Firebug或在Chrome的“网络浏览器”选项卡中打开开发者工具 3、列出的故障的*.html大小为>~390KB&您确定这不

Facebook的URL scapper有大小限制吗?我们在一个网站上有几本书。那些HMTL文件大小小于一定大小(~390KB)的文件会被刮取并正确读取,但较大的文件则不会。这些较大的项目将获得200响应代码,并打开规范URL

所有这些页面都是使用相同的模板构建的,唯一的区别是每本书内容的大小以及每本书与网站上其他页面的链接数量

  • 单击规范URL
  • 在Firefox中打开Firebug或在Chrome的“网络浏览器”选项卡中打开开发者工具
    3、列出的故障的*.html大小为>~390KB&您确定这不是您的问题吗?上次我检查scraper时,它只请求文档的前4096字节,这应该总是有足够的空间来检索带有meta标记的
    部分您确定这不是问题吗?上次我检查scraper时,它只请求文档的前4096字节,这应该总是有足够的空间来检索带有meta标记的
    部分您的问题的解决方案可能是检查是否有真正的用户或Facebook机器人正在访问您的页面。如果是bot,则仅为其呈现必要的元数据。您可以通过其用户代理检测bot,该代理符合以下要求:
    “facebookexternalhit/1.1(+http://www.facebook.com/externalhit_uatext.php)“

    代码如下所示(在PHP中):


    解决您问题的一个方法可能是检查是否有真正的用户或Facebook机器人正在访问您的页面。如果是bot,则仅为其呈现必要的元数据。您可以通过其用户代理检测bot,该代理符合以下要求:
    “facebookexternalhit/1.1(+http://www.facebook.com/externalhit_uatext.php)“

    代码如下所示(在PHP中):


    实际上,你的问题中有答案(顺便说一句,这很有趣):刮板的tmi。也许你想在中提交一个bug,然后等待Facebook对此事的回复。我在来这里之前尝试了这个页面,因为这是社区支持,而不是FB支持。我看了FB关于提交bug的文档,但是他们说点击的链接对我来说并没有出现。我也尝试了,但没有应用程序的名称无法提交表单。我试图通过通知FB。我们来看看这有没有结果在此之前,我会给你另一个答案。如果你等得太久,也许会有帮助。顺便说一句,@Igy的答案实际上是Facebook的答案,因为他是Facebook开发支持工程团队的一员。事实上,你的问题中有答案(顺便说一句,这很有意思):tmi的铲运机。也许你想在中提交一个bug,然后等待Facebook对此事的回复。我在来这里之前尝试了这个页面,因为这是社区支持,而不是FB支持。我看了FB关于提交bug的文档,但是他们说点击的链接对我来说并没有出现。我也尝试了,但没有应用程序的名称无法提交表单。我试图通过通知FB。我们来看看这有没有结果在此之前,我会给你另一个答案。如果你等得太久,也许会有帮助。顺便说一句,@Igy的答案实际上是Facebook的答案,因为他是Facebook开发支持工程团队的一员。我相当确定这对我来说不是问题。工作的URL使用完全相同的后端代码,没有问题。当我查看“查看我们的scraper为您的URL所看到的内容”链接时,我看到了从到的所有内容,这些内容远远超过4096字节。您在哪里找到了这些信息?如果您检查scraper发送的标题,它包括一个范围标题:
    范围:bytes=0-40960
    (或者是几个月前我上次检查时发现的)我相当确定这不是我的问题。工作的URL使用完全相同的后端代码,没有问题。当我查看“查看我们的scraper为您的URL所看到的内容”链接时,我看到了从到的所有内容,这些内容远远超过4096字节。你在哪里找到这些信息?如果你检查scraper发送的标题,它包括一个范围标题:
    range:bytes=0-40960
    (或者是几个月前我上次检查时做的)。我用它来修剪失败的四本书的内容,现在它们加载了。谢谢。我用这个来删减四本失败的书的内容,现在它们都加载了。非常感谢。
    function userAgentIsFacebookBot() {
        if ($_SERVER['HTTP_USER_AGENT'] == "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)") {
            return true;
        }
        return false;
    }