Web scraping 抓取网页并查找行标题_Web Scraping_Artificial Intelligence_Puppeteer

Web scraping 抓取网页并查找行标题

web-scraping artificial-intelligence

Web scraping 抓取网页并查找行标题,web-scraping,artificial-intelligence,puppeteer,Web Scraping,Artificial Intelligence,Puppeteer,我正在寻找一种在网页中查找行标题的方法使用Puppeter我可以在我知道div和类名称的情况下找到行标题。但如果我没有呢？如果我想获得将出现的任何列表的所有标题，该怎么办不是寻找一个完整的解决方案（如果是的话，更好），而是我可以使用什么技术（可能是某种人工智能）来获得这个输出的想法例如：输出：塞基罗：阴影会死两次致命的快击11 2019 F1 外野监督学习如果你指的是监督学习人工智能系统（比如神经网络），我想告诉你你将要面对的问题。主要有三个问题：培训数据要创建自动检测

我正在寻找一种在网页中查找行标题的方法

使用Puppeter我可以在我知道div和类名称的情况下找到行标题。但如果我没有呢？如果我想获得将出现的任何列表的所有标题，该怎么办

不是寻找一个完整的解决方案（如果是的话，更好），而是我可以使用什么技术（可能是某种人工智能）来获得这个输出的想法

例如：

输出：

塞基罗：阴影会死两次

致命的快击11

2019 F1

外野

监督学习如果你指的是监督学习人工智能系统（比如神经网络），我想告诉你你将要面对的问题。主要有三个问题：

培训数据

要创建自动检测标题的AI，首先需要训练AI。你需要数百个，可能数千个样本来训练你的人工智能。这意味着，在AI能够预测任何事情之前，你必须投入大量的手工工作来获取和标记输入数据

输入您的AI

你会给AI什么作为输入？您有两个选择：

源代码：这将基本上训练你的AI成为网络浏览器。有趣的挑战，但我怀疑你会从中得到任何结果
网站的屏幕截图？你不应该把实际的截图输入人工智能，而应该尝试“清理”它。例如，您可以使用某种占位符替换所有文本，因为您希望您的AI处理“文档外观”，而不是文本本身。这种方法比第一种方法工作得更好，但在将图像提供给AI之前，您必须在图像清理方面做一些工作。这可能是可行的，但您需要大量的培训数据才能可靠地工作

可靠性

即使您解决了所有问题，并且您的AI最终能够检测列表的标题，您也需要意识到AI永远不会完美工作。当然，没有一个算法是完美的，但是使用人工智能，你不能简单地“调整”你的算法来获得更好的结果

想象一下，你看到一个特定的网站你的人工智能不工作。您无法轻松调试AI并调整代码以使其适用于该页面。你将不得不重新训练你的人工智能，希望在你调整后它能工作。也许，然后它将为该页面工作，但现在另一个网站将不再工作

算法方法我建议不要使用AI，而是使用一个简单的算法来检测包含标题元素的列表。类似以下的方法可能会起作用：

对每个标题标签重复以下操作（

h2

，

h3

，…）

获取所有标题元素（例如

h2

）

元素的数量可能类似于

h2，h3，h4，[class*=title]

实际上，你需要训练一些人工智能来理解什么是标题，什么不是标题。计算机无法自动知道我们希望输出的是哪一个：D