Web scraping 网页抓取-标记不同时如何抓取？_Web Scraping

Web scraping 网页抓取-标记不同时如何抓取？

web-scraping

Web scraping 网页抓取-标记不同时如何抓取？,web-scraping,Web Scraping,我正试图编写一个脚本，将从大学网站上抓取数据，并想知道当HTML可能因网站而异时，如何抓取数据。我们是否需要为it添加某种智能，以便从多个站点进行识别和定位？您需要提供更多详细信息。有许多框架可用于解析html，例如，等等…以及不同的数据检索方法，如XPath和XPath。我正在考虑构建一个web刮取框架来刮取菜谱网站，听起来您尝试做的是类似的，尽管大学表示数据的方式可能有更多的结构你想在网站上寻找的是围绕你想要的信息的类似功能。在不知道您想要收集的信息的情况下，很难给出具体的建议，但是如果您

我正试图编写一个脚本，将从大学网站上抓取数据，并想知道当HTML可能因网站而异时，如何抓取数据。我们是否需要为it添加某种智能，以便从多个站点进行识别和定位？

您需要提供更多详细信息。有许多框架可用于解析html，例如，等等…以及不同的数据检索方法，如XPath和XPath。

我正在考虑构建一个web刮取框架来刮取菜谱网站，听起来您尝试做的是类似的，尽管大学表示数据的方式可能有更多的结构

你想在网站上寻找的是围绕你想要的信息的类似功能。在不知道您想要收集的信息的情况下，很难给出具体的建议，但是如果您想抓取例如学期日期，那么您将在页面中查找看起来像日期的文本，并且页面上有一些文本，最好是在具有文本（例如“学期日期”）的某种标题标记内

制作一个可以在一系列站点上管理的程序将是困难的，根据您想要刮取的数量和频率，为您自己制作一个框架可能更好，您可以为每个新站点交换新的css选择器

要使某些东西完全自动化，您可能需要创建某种机器学习模型。我对菜谱网站的计划是使用线性回归来给出一个元素的概率值，该元素是算法基于一组特征搜索的元素。例如，配方标题可能是页面上最大的标题标签。标题标签越大，标签包含配方标题的概率越高。但情况并非总是如此，最大的标题标签通常是博客的名称，因此为了解决这一问题，算法需要查看最大标题标签的压缩在该域的页面上是如何变化的。要训练回归模型，您需要一个包含示例的数据集，其中您已经在页面上手动标记了元素

最后，我决定更简单地构建一个框架，在这个框架中，我可以检查我想要的每个元素的CSS选择器，并使用它们让算法在整个站点上运行。

谢谢。我也最终做了同样的事。然而，你所说的模型可能真的解决了这个问题。我要试一试。谢谢。