如何使用机器学习对URL进行分类?

如何使用机器学习对URL进行分类?,url,machine-learning,Url,Machine Learning,我正在索引网站的内容,我想实现一些仅基于URL的分类 我想区分appart内容视图页面和导航页面。 我所说的“内容查看页面”是指人们通常可以看到产品或书面文章详细信息的网页。 “导航页面”是指(通常)由指向内容页面或其他更具体列表页面的链接列表组成的页面 虽然有些站点使用站点范围的密钥系统来映射其内容,但大多数站点都是一点一点地映射内容,并确定其密钥映射的范围,因此这应该是可能的 实际上,我想做的是从一个站点获取URL列表,并根据相似性对它们进行分组。我相信机器学习可以做到这一点,但我不知道如何

我正在索引网站的内容,我想实现一些仅基于URL的分类

我想区分appart内容视图页面和导航页面。 我所说的“内容查看页面”是指人们通常可以看到产品或书面文章详细信息的网页。 “导航页面”是指(通常)由指向内容页面或其他更具体列表页面的链接列表组成的页面

虽然有些站点使用站点范围的密钥系统来映射其内容,但大多数站点都是一点一点地映射内容,并确定其密钥映射的范围,因此这应该是可能的

实际上,我想做的是从一个站点获取URL列表,并根据相似性对它们进行分组。我相信机器学习可以做到这一点,但我不知道如何做到。 机器学习似乎是一个广泛的话题,我应该特别开始阅读什么?
哪些概念、哪些算法、哪些工具?

您首先需要收集导航/内容页面的数据集并对其进行标记。在那之后,事情就很简单了


你将使用什么语言?我建议您试试这是一个基于java的工具,您只需按下一个按钮,就可以从中获取50多个算法的性能度量。在这之后,您将知道哪一个是最准确的,并且可以部署它

我觉得您正在尝试在算法中对
权限
中心
进行分类

  • Hub
    是您的导航页面
  • Authority
    是您的内容查看页面
通过对每个网页进行链接分析,您应该能够通过对域中的所有网页执行点击来找出页面的类型。如下图所示,左图显示了网页之间的链接关系。右图显示了在运行HITS后与hub/authority对应的得分。点击开始时不需要任何标签。更新规则很简单:基本上只有一个权限分数更新和另一个中心分数更新

这是一个讨论pagerank/点击率的教程,我借用了上面两个图表


是HITS的扩展版本,结合了HITS和信息检索方法(TF-IDF、向量空间模型等)。这看起来更有希望,但肯定需要更多的工作。我建议你从天真的点击开始,看看它有多好。除此之外,还可以尝试中提到的一些技术来提高性能。

如果您想自动发现这些组,我建议您自己找到一个集群算法的实现(可能是最流行的,您不需要说明要用什么语言来实现)。你知道有两个类别,因此允许你事先指定类别的数量会使问题变得更容易


之后,为你的网页定义一系列功能,并通过k-means运行它们,看看生成了什么类型的组。调整你使用的功能,直到你得到令人满意的东西。如果您可以访问网页本身,我强烈建议您使用在整个网页上定义的功能,而不仅仅是URL。

主要决策:您想从中学习这两类内容的一些标签示例,还是想自动发现组(这更难)?另外,您希望仅根据url进行分类,还是根据url处页面的内容进行分类?如果你澄清,我可以提出一些建议。我想自动发现群组。我知道这很难,但也更有趣/更具挑战性。我也意识到这并不总是可能的。但我想尝试并实现一些经过验证的算法,看看它能做多少。我之所以只提到URL,是因为我想从尽可能简单的开始。后者,更多的变量可以发挥作用来改进算法。目标是尽可能减少人为输入。如果我必须手动构建数据集,那么可能更简单的解决方案更容易/更便宜。这是一个有用的条目,我将探讨这种可能性,但是,它仍然不能准确回答我的问题。检查我对原始问题的评论。这回答了我的问题。谢谢你“聚类”和“K-means”是关键词。我可能会使用python,但我不确定这是否非常相关。