爬行url \如何在node.js中获取动态链接

爬行url \如何在node.js中获取动态链接,node.js,web-crawler,Node.js,Web Crawler,我使用js crawler来抓取网站,现在遇到了CNN,这部分(由于某些原因动态生成的URL)。 问题是爬虫并没有真正接触脚本-我应该如何解决它?除了node.js爬虫,我还应该编写自己的代码吗?是否有高级爬虫程序知道如何处理这种动态行为?将我的评论变成答案: 对客户端Javascript生成的内容进行爬网是一个复杂的问题,甚至连谷歌都没有完全解决 真正做到这一点的唯一方法是使用某种类型的无头浏览器,该浏览器在服务器上被安全地沙箱化,页面被加载到类似浏览器的环境中,在那里它可以运行自己的脚本并生

我使用js crawler来抓取网站,现在遇到了CNN,这部分(由于某些原因动态生成的URL)。
问题是爬虫并没有真正接触脚本-我应该如何解决它?除了node.js爬虫,我还应该编写自己的代码吗?是否有高级爬虫程序知道如何处理这种动态行为?

将我的评论变成答案:


对客户端Javascript生成的内容进行爬网是一个复杂的问题,甚至连谷歌都没有完全解决

真正做到这一点的唯一方法是使用某种类型的无头浏览器,该浏览器在服务器上被安全地沙箱化,页面被加载到类似浏览器的环境中,在那里它可以运行自己的脚本并生成自己的内容,然后您可以检查生成的DOM


即便如此,它也不一定会生成需要用户交互的内容(比如单击选项卡以显示某些内容)。

抓取客户端Javascript生成的内容是一个复杂的问题,甚至连谷歌都没有完全解决。真正做到这一点的唯一方法是在服务器上使用某种无头浏览器,将页面加载到类似浏览器的环境中,在该环境中,页面可以运行自己的脚本并生成自己的内容,然后您可以检查生成的DOM。即使这样,它也不一定会生成需要用户交互的内容(比如点击标签来显示一些内容)。让它回复,这样我就可以投票支持它了!非常感谢。