Javascript 如何创建对特定网页进行爬网的API_Javascript_Web Crawler

Javascript 如何创建对特定网页进行爬网的API

javascript web-crawler

Javascript 如何创建对特定网页进行爬网的API,javascript,web-crawler,Javascript,Web Crawler,我想设计/创建一个API，它可以抓取网页上的数据（将提供网页链接作为输入），并以JSON/xml格式返回数据我正在寻找一些帮助，这样我就可以开始寻找特定的方向。问题不是很清楚，但是如果您只想解析输入HTML页面并从中获取大纲链接，您可以执行以下操作获取HTML页面作为输入流使用jtidy或任何其他HTMLDOM解析器从中创建DOM 有了DOM后，获取所有、href、元素，就有了所有的大纲链接一般来说，当你说爬行，它应该涉及多个页面，在一个图形中，你从一个页面移动到另一个使用这些链接。所以

我想设计/创建一个API，它可以抓取网页上的数据（将提供网页链接作为输入），并以JSON/xml格式返回数据

我正在寻找一些帮助，这样我就可以开始寻找特定的方向。

问题不是很清楚，但是如果您只想解析输入HTML页面并从中获取大纲链接，您可以执行以下操作

获取HTML页面作为输入流

使用jtidy或任何其他HTMLDOM解析器从中创建DOM

有了DOM后，获取所有

、href、元素，就有了所有的大纲链接

一般来说，当你说爬行，它应该涉及多个页面，在一个图形中，你从一个页面移动到另一个使用这些链接。所以爬行特定页面是不正确的