Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/472.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
JavaScript内容何时可爬网(如果有)?_Javascript_Jquery_Web Crawler - Fatal编程技术网

JavaScript内容何时可爬网(如果有)?

JavaScript内容何时可爬网(如果有)?,javascript,jquery,web-crawler,Javascript,Jquery,Web Crawler,我希望在我为Twitter时间线开发的网站上实现时间线功能。我有一个选项是可爬行的,可以直接在Twitter的“widgets: !function(d,s,id){var js,fjs=d.getElementsByTagName(s)[0];if(!d.getElementById(id)){js=d.createElement(s);js.id=id;js.src=“//platform.twitter.com/widgets.js”;fjs.parentNode.insertBefor

我希望在我为Twitter时间线开发的网站上实现时间线功能。我有一个选项是可爬行的,可以直接在Twitter的“widgets:


!function(d,s,id){var js,fjs=d.getElementsByTagName(s)[0];if(!d.getElementById(id)){js=d.createElement(s);js.id=id;js.src=“//platform.twitter.com/widgets.js”;fjs.parentNode.insertBefore(js,fjs);}(文档,“脚本”,“twitter wjs”);
该代码首先不是XHTML的有效脚本,所以我寻找了一个插件或脚本,该插件或脚本可以为CSS定制,但是这个爬虫友好吗?
区分可爬网脚本和不可爬网脚本的技术有哪些?我是否应该打开JavaScript自己看看?jQuery内容是否可以爬网?必须执行哪些操作(假设有)我想让我自己的jQuery生成的任何内容都可以爬行?我在网上发现了关于这一点的混合引用,因此如果您觉得可以帮助我,请告诉我一个值得信赖的资源。

爬行器获取HTML页面。这是它们唯一的功能。它们获取样式表和Java脚本的名称,因为它们是HTML的一部分文档头(作为链接和脚本标记),但它们的目的既不是设计页面样式,也不是增强行为。它们获取HTML静态信息并进行解析,以便对其内容做出假设。如果您的内容是在javascript触发后生成的,则爬虫程序将无法获取它

一个使其对爬虫友好的解决方案是为它们设置一个后备方案。但这必须涉及在服务器端呈现您的twitter信息。Facebook做到了这一点:

<noscript>
  <meta http-equiv="refresh" content="0; URL=/home.php?_fb_noscript=1" />
</noscript>

Facebook在其文档头中插入此元标记。它仅在noscript案例(因此称为爬虫)中触发,并使用给定url刷新页面,在Facebook案例中,这意味着“在服务器端渲染墙,dude没有javascript”“。当然,爬虫程序必须知道如何处理此标记

查看一些关于在拥有动态ajax内容的同时使您的站点爬虫友好的信息。
<noscript>
  <meta http-equiv="refresh" content="0; URL=/home.php?_fb_noscript=1" />
</noscript>