Web scraping 网页抓取-标记不同时如何抓取?

Web scraping 网页抓取-标记不同时如何抓取?,web-scraping,Web Scraping,我正试图编写一个脚本,将从大学网站上抓取数据,并想知道当HTML可能因网站而异时,如何抓取数据。我们是否需要为it添加某种智能,以便从多个站点进行识别和定位?您需要提供更多详细信息。有许多框架可用于解析html,例如,等等…以及不同的数据检索方法,如XPath和XPath。我正在考虑构建一个web刮取框架来刮取菜谱网站,听起来您尝试做的是类似的,尽管大学表示数据的方式可能有更多的结构 你想在网站上寻找的是围绕你想要的信息的类似功能。在不知道您想要收集的信息的情况下,很难给出具体的建议,但是如果您

我正试图编写一个脚本,将从大学网站上抓取数据,并想知道当HTML可能因网站而异时,如何抓取数据。我们是否需要为it添加某种智能,以便从多个站点进行识别和定位?

您需要提供更多详细信息。有许多框架可用于解析html,例如,等等…以及不同的数据检索方法,如XPath和XPath。

我正在考虑构建一个web刮取框架来刮取菜谱网站,听起来您尝试做的是类似的,尽管大学表示数据的方式可能有更多的结构

你想在网站上寻找的是围绕你想要的信息的类似功能。在不知道您想要收集的信息的情况下,很难给出具体的建议,但是如果您想抓取例如学期日期,那么您将在页面中查找看起来像日期的文本,并且页面上有一些文本,最好是在具有文本(例如“学期日期”)的某种标题标记内

制作一个可以在一系列站点上管理的程序将是困难的,根据您想要刮取的数量和频率,为您自己制作一个框架可能更好,您可以为每个新站点交换新的css选择器

要使某些东西完全自动化,您可能需要创建某种机器学习模型。我对菜谱网站的计划是使用线性回归来给出一个元素的概率值,该元素是算法基于一组特征搜索的元素。例如,配方标题可能是页面上最大的标题标签。标题标签越大,标签包含配方标题的概率越高。但情况并非总是如此,最大的标题标签通常是博客的名称,因此为了解决这一问题,算法需要查看最大标题标签的压缩在该域的页面上是如何变化的。 要训练回归模型,您需要一个包含示例的数据集,其中您已经在页面上手动标记了元素


最后,我决定更简单地构建一个框架,在这个框架中,我可以检查我想要的每个元素的CSS选择器,并使用它们让算法在整个站点上运行。

谢谢。我也最终做了同样的事。然而,你所说的模型可能真的解决了这个问题。我要试一试。谢谢。