爬行url \如何在node.js中获取动态链接_Node.js_Web Crawler

爬行url \如何在node.js中获取动态链接

node.js web-crawler

爬行url \如何在node.js中获取动态链接,node.js,web-crawler,Node.js,Web Crawler,我使用js crawler来抓取网站，现在遇到了CNN，这部分（由于某些原因动态生成的URL）。问题是爬虫并没有真正接触脚本-我应该如何解决它？除了node.js爬虫，我还应该编写自己的代码吗？是否有高级爬虫程序知道如何处理这种动态行为？将我的评论变成答案：对客户端Javascript生成的内容进行爬网是一个复杂的问题，甚至连谷歌都没有完全解决真正做到这一点的唯一方法是使用某种类型的无头浏览器，该浏览器在服务器上被安全地沙箱化，页面被加载到类似浏览器的环境中，在那里它可以运行自己的脚本并生

我使用js crawler来抓取网站，现在遇到了CNN，这部分（由于某些原因动态生成的URL）。

问题是爬虫并没有真正接触脚本-我应该如何解决它？除了node.js爬虫，我还应该编写自己的代码吗？是否有高级爬虫程序知道如何处理这种动态行为？

将我的评论变成答案：

对客户端Javascript生成的内容进行爬网是一个复杂的问题，甚至连谷歌都没有完全解决

真正做到这一点的唯一方法是使用某种类型的无头浏览器，该浏览器在服务器上被安全地沙箱化，页面被加载到类似浏览器的环境中，在那里它可以运行自己的脚本并生成自己的内容，然后您可以检查生成的DOM

即便如此，它也不一定会生成需要用户交互的内容（比如单击选项卡以显示某些内容）。

抓取客户端Javascript生成的内容是一个复杂的问题，甚至连谷歌都没有完全解决。真正做到这一点的唯一方法是在服务器上使用某种无头浏览器，将页面加载到类似浏览器的环境中，在该环境中，页面可以运行自己的脚本并生成自己的内容，然后您可以检查生成的DOM。即使这样，它也不一定会生成需要用户交互的内容（比如点击标签来显示一些内容）。让它回复，这样我就可以投票支持它了！非常感谢。