Javascript 运行Flask web服务器是否会阻止Node.JS中的web抓取?

Javascript 运行Flask web服务器是否会阻止Node.JS中的web抓取?,javascript,node.js,python-3.x,web-scraping,Javascript,Node.js,Python 3.x,Web Scraping,我有兴趣尝试一个网页抓取项目。目标站点使用Javascript动态加载和更新内容。大多数在线讨论都是关于网站抓取的,比如node.js、casper.js、phantom.js和噩梦.js都是在尝试这样的项目时使用的相当流行的工具。Node.js似乎是最常用的 如果我正在运行Flask服务器,并且希望在我的站点上显示node.js的结果,例如,以表格格式进行刮取,这可能吗?我会遇到兼容性问题吗?或者为了保持一致性,我应该尝试使用基于python的方法来进行类似BS4的刮取吗?我这样问是因为nod

我有兴趣尝试一个网页抓取项目。目标站点使用Javascript动态加载和更新内容。大多数在线讨论都是关于网站抓取的,比如node.js、casper.js、phantom.js和噩梦.js都是在尝试这样的项目时使用的相当流行的工具。Node.js似乎是最常用的


如果我正在运行Flask服务器,并且希望在我的站点上显示node.js的结果,例如,以表格格式进行刮取,这可能吗?我会遇到兼容性问题吗?或者为了保持一致性,我应该尝试使用基于python的方法来进行类似BS4的刮取吗?我这样问是因为node.js被描述为一个服务器,所以我假设如果我试图同时使用它和Flask,就会发生冲突

如果您想编写一个执行javascript的web scraper,那么使用类似Phantom.js的node.js是一个不错的选择。另一个流行的选择是硒。您需要模拟用户操作来激活事件处理程序。让我们把这个动作称为刮擦。BS4不合适,因为它不能执行javascript

一旦您将数据保存到磁盘,以HTML表格形式显示结果(我们称之为此操作报告)将需要另一种解决方案。烧瓶是一个合适的选择


由于刮取和报告是两个独立的关注点,如果您希望同时使用这两个服务,就不会发生冲突。当使用Selenium或node.js作为刮板时,实际上并不是在运行web服务器。因此,将其视为可能发生冲突的两台web服务器是不正确的。

谢谢!起初我以为node只是另一种语言,然后我开始阅读,看到它被称为web服务器。接着,幻影、卡斯珀和噩梦从木制品中出现,这增加了混乱。我真诚地感谢您简洁明了的回答!