Javascript 如何创建对特定网页进行爬网的API

Javascript 如何创建对特定网页进行爬网的API,javascript,web-crawler,Javascript,Web Crawler,我想设计/创建一个API,它可以抓取网页上的数据(将提供网页链接作为输入),并以JSON/xml格式返回数据 我正在寻找一些帮助,这样我就可以开始寻找特定的方向。问题不是很清楚,但是如果您只想解析输入HTML页面并从中获取大纲链接,您可以执行以下操作 获取HTML页面作为输入流 使用jtidy或任何其他HTMLDOM解析器从中创建DOM 有了DOM后,获取所有、href、元素,就有了所有的大纲链接 一般来说,当你说爬行,它应该涉及多个页面,在一个图形中,你从一个页面移动到另一个使用这些链接。所以

我想设计/创建一个API,它可以抓取网页上的数据(将提供网页链接作为输入),并以JSON/xml格式返回数据


我正在寻找一些帮助,这样我就可以开始寻找特定的方向。

问题不是很清楚,但是如果您只想解析输入HTML页面并从中获取大纲链接,您可以执行以下操作

  • 获取HTML页面作为输入流
  • 使用jtidy或任何其他HTMLDOM解析器从中创建DOM
  • 有了DOM后,获取所有
  • 、href、元素,就有了所有的大纲链接
  • 一般来说,当你说爬行,它应该涉及多个页面,在一个图形中,你从一个页面移动到另一个使用这些链接。所以爬行特定页面是不正确的