Web scraping 抓取网页并查找行标题
我正在寻找一种在网页中查找行标题的方法 使用Puppeter我可以在我知道div和类名称的情况下找到行标题。 但如果我没有呢? 如果我想获得将出现的任何列表的所有标题,该怎么办 不是寻找一个完整的解决方案(如果是的话,更好),而是我可以使用什么技术(可能是某种人工智能)来获得这个输出的想法 例如: 输出:Web scraping 抓取网页并查找行标题,web-scraping,artificial-intelligence,puppeteer,Web Scraping,Artificial Intelligence,Puppeteer,我正在寻找一种在网页中查找行标题的方法 使用Puppeter我可以在我知道div和类名称的情况下找到行标题。 但如果我没有呢? 如果我想获得将出现的任何列表的所有标题,该怎么办 不是寻找一个完整的解决方案(如果是的话,更好),而是我可以使用什么技术(可能是某种人工智能)来获得这个输出的想法 例如: 输出: 塞基罗:阴影会死两次 致命的快击11 2019 F1 外野 监督学习 如果你指的是监督学习人工智能系统(比如神经网络),我想告诉你你将要面对的问题。主要有三个问题: 培训数据 要创建自动检测
- 源代码:这将基本上训练你的AI成为网络浏览器。有趣的挑战,但我怀疑你会从中得到任何结果
- 网站的屏幕截图?你不应该把实际的截图输入人工智能,而应该尝试“清理”它。例如,您可以使用某种占位符替换所有文本,因为您希望您的AI处理“文档外观”,而不是文本本身。这种方法比第一种方法工作得更好,但在将图像提供给AI之前,您必须在图像清理方面做一些工作。这可能是可行的,但您需要大量的培训数据才能可靠地工作
h2
,h3
,…)
h2
)h2,h3,h4,[class*=title]
实际上,你需要训练一些人工智能来理解什么是标题,什么不是标题。计算机无法自动知道我们希望输出的是哪一个:D