JavaScript内容何时可爬网（如果有）？_Javascript_Jquery_Web Crawler

JavaScript内容何时可爬网（如果有）？

javascript jquery web-crawler

JavaScript内容何时可爬网（如果有）？,javascript,jquery,web-crawler,Javascript,Jquery,Web Crawler,我希望在我为Twitter时间线开发的网站上实现时间线功能。我有一个选项是可爬行的，可以直接在Twitter的“widgets: ！function（d，s，id）{var js，fjs=d.getElementsByTagName（s）[0]；if（！d.getElementById（id））{js=d.createElement（s）；js.id=id；js.src=“//platform.twitter.com/widgets.js”；fjs.parentNode.insertBefor

我希望在我为Twitter时间线开发的网站上实现时间线功能。我有一个选项是可爬行的，可以直接在Twitter的“widgets:


！function（d，s，id）{var js，fjs=d.getElementsByTagName（s）[0]；if（！d.getElementById（id））{js=d.createElement（s）；js.id=id；js.src=“//platform.twitter.com/widgets.js”；fjs.parentNode.insertBefore（js，fjs）；}（文档，“脚本”，“twitter wjs”）；

该代码首先不是XHTML的有效脚本，所以我寻找了一个插件或脚本，该插件或脚本可以为CSS定制，但是这个爬虫友好吗？

区分可爬网脚本和不可爬网脚本的技术有哪些？我是否应该打开JavaScript自己看看？jQuery内容是否可以爬网？必须执行哪些操作（假设有）我想让我自己的jQuery生成的任何内容都可以爬行？我在网上发现了关于这一点的混合引用，因此如果您觉得可以帮助我，请告诉我一个值得信赖的资源。

爬行器获取HTML页面。这是它们唯一的功能。它们获取样式表和Java脚本的名称，因为它们是HTML的一部分文档头（作为链接和脚本标记），但它们的目的既不是设计页面样式，也不是增强行为。它们获取HTML静态信息并进行解析，以便对其内容做出假设。如果您的内容是在javascript触发后生成的，则爬虫程序将无法获取它

一个使其对爬虫友好的解决方案是为它们设置一个后备方案。但这必须涉及在服务器端呈现您的twitter信息。Facebook做到了这一点：

<noscript>
  <meta http-equiv="refresh" content="0; URL=/home.php?_fb_noscript=1" />
</noscript>

Facebook在其文档头中插入此元标记。它仅在noscript案例（因此称为爬虫）中触发，并使用给定url刷新页面，在Facebook案例中，这意味着“在服务器端渲染墙，dude没有javascript”“。当然，爬虫程序必须知道如何处理此标记

查看一些关于在拥有动态ajax内容的同时使您的站点爬虫友好的信息。

<noscript>
  <meta http-equiv="refresh" content="0; URL=/home.php?_fb_noscript=1" />
</noscript>