Web scraping 抓取网页并查找行标题

Web scraping 抓取网页并查找行标题,web-scraping,artificial-intelligence,puppeteer,Web Scraping,Artificial Intelligence,Puppeteer,我正在寻找一种在网页中查找行标题的方法 使用Puppeter我可以在我知道div和类名称的情况下找到行标题。 但如果我没有呢? 如果我想获得将出现的任何列表的所有标题,该怎么办 不是寻找一个完整的解决方案(如果是的话,更好),而是我可以使用什么技术(可能是某种人工智能)来获得这个输出的想法 例如: 输出: 塞基罗:阴影会死两次 致命的快击11 2019 F1 外野 监督学习 如果你指的是监督学习人工智能系统(比如神经网络),我想告诉你你将要面对的问题。主要有三个问题: 培训数据 要创建自动检测

我正在寻找一种在网页中查找行标题的方法

使用Puppeter我可以在我知道div和类名称的情况下找到行标题。 但如果我没有呢? 如果我想获得将出现的任何列表的所有标题,该怎么办

不是寻找一个完整的解决方案(如果是的话,更好),而是我可以使用什么技术(可能是某种人工智能)来获得这个输出的想法

例如:

输出:

  • 塞基罗:阴影会死两次
  • 致命的快击11
  • 2019 F1
  • 外野
  • 监督学习 如果你指的是监督学习人工智能系统(比如神经网络),我想告诉你你将要面对的问题。主要有三个问题:

    培训数据

    要创建自动检测标题的AI,首先需要训练AI。你需要数百个,可能数千个样本来训练你的人工智能。这意味着,在AI能够预测任何事情之前,你必须投入大量的手工工作来获取和标记输入数据

    输入您的AI

    你会给AI什么作为输入?您有两个选择:

    • 源代码:这将基本上训练你的AI成为网络浏览器。有趣的挑战,但我怀疑你会从中得到任何结果
    • 网站的屏幕截图?你不应该把实际的截图输入人工智能,而应该尝试“清理”它。例如,您可以使用某种占位符替换所有文本,因为您希望您的AI处理“文档外观”,而不是文本本身。这种方法比第一种方法工作得更好,但在将图像提供给AI之前,您必须在图像清理方面做一些工作。这可能是可行的,但您需要大量的培训数据才能可靠地工作
    可靠性

    即使您解决了所有问题,并且您的AI最终能够检测列表的标题,您也需要意识到AI永远不会完美工作。当然,没有一个算法是完美的,但是使用人工智能,你不能简单地“调整”你的算法来获得更好的结果

    想象一下,你看到一个特定的网站你的人工智能不工作。您无法轻松调试AI并调整代码以使其适用于该页面。你将不得不重新训练你的人工智能,希望在你调整后它能工作。也许,然后它将为该页面工作,但现在另一个网站将不再工作

    算法方法 我建议不要使用AI,而是使用一个简单的算法来检测包含标题元素的列表。类似以下的方法可能会起作用:

    对每个标题标签重复以下操作(
    h2
    h3
    ,…)

  • 获取所有标题元素(例如
    h2

  • 元素的数量可能类似于
    h2,h3,h4,[class*=title]
    实际上,你需要训练一些人工智能来理解什么是标题,什么不是标题。计算机无法自动知道我们希望输出的是哪一个:D