使用python进行网页结构比较

使用python进行网页结构比较,python,dom,data-science,Python,Dom,Data Science,我想将一组给定的网页分类为不同的类,主要分为3类(产品页面、索引页面和产品相关项目页面)。我认为可以通过分析它们的结构来实现。我只是想比较基于DOM(文档对象模型)结构的网页。我想知道python中是否有用于解决此问题的库。 提前感谢。首先,您需要确定页面中的哪些元素实际上唯一地将页面标识为特定网页类 然后,您可以使用类似BeautifulSoup的库来实际查看文档,以查看这些元素是否存在 然后,您只需要一系列if/elif来确定页面是否具有符合条件的元素,如果是,则将其分类为适当的网页类。首先

我想将一组给定的网页分类为不同的类,主要分为3类(产品页面、索引页面和产品相关项目页面)。我认为可以通过分析它们的结构来实现。我只是想比较基于DOM(文档对象模型)结构的网页。我想知道python中是否有用于解决此问题的库。
提前感谢。

首先,您需要确定页面中的哪些元素实际上唯一地将页面标识为特定网页类

然后,您可以使用类似BeautifulSoup的库来实际查看文档,以查看这些元素是否存在


然后,您只需要一系列if/elif来确定页面是否具有符合条件的元素,如果是,则将其分类为适当的网页类。

首先,您需要确定页面中的哪些元素实际上唯一地将页面标识为特定网页类

然后,您可以使用类似BeautifulSoup的库来实际查看文档,以查看这些元素是否存在


然后,您只需要一系列if/elif来确定页面是否具有符合条件的元素,如果是,请将其分类为适当的网页类。

谢谢您的回复。我查看了网页。有些网页根据标签划分其结构,但有些网页根据标签划分。而且这两个网站也包含和标签的其他用途也。因此,关于如何对这些物品进行一般分类的困惑仍未解决。谢谢您的回复。我查看了网页。有些网页根据标签划分其结构,但有些网页根据标签划分。而且这两个网站也包含和标签的其他用途也。因此,关于如何对这些项目进行总体分类的困惑仍未解决。