如何使用机器学习对URL进行分类？_Url_Machine Learning

如何使用机器学习对URL进行分类？

url machine-learning

如何使用机器学习对URL进行分类？,url,machine-learning,Url,Machine Learning,我正在索引网站的内容，我想实现一些仅基于URL的分类我想区分appart内容视图页面和导航页面。我所说的“内容查看页面”是指人们通常可以看到产品或书面文章详细信息的网页。 “导航页面”是指（通常）由指向内容页面或其他更具体列表页面的链接列表组成的页面虽然有些站点使用站点范围的密钥系统来映射其内容，但大多数站点都是一点一点地映射内容，并确定其密钥映射的范围，因此这应该是可能的实际上，我想做的是从一个站点获取URL列表，并根据相似性对它们进行分组。我相信机器学习可以做到这一点，但我不知道如何

我正在索引网站的内容，我想实现一些仅基于URL的分类

我想区分appart内容视图页面和导航页面。我所说的“内容查看页面”是指人们通常可以看到产品或书面文章详细信息的网页。 “导航页面”是指（通常）由指向内容页面或其他更具体列表页面的链接列表组成的页面

虽然有些站点使用站点范围的密钥系统来映射其内容，但大多数站点都是一点一点地映射内容，并确定其密钥映射的范围，因此这应该是可能的

实际上，我想做的是从一个站点获取URL列表，并根据相似性对它们进行分组。我相信机器学习可以做到这一点，但我不知道如何做到。机器学习似乎是一个广泛的话题，我应该特别开始阅读什么？

哪些概念、哪些算法、哪些工具？

您首先需要收集导航/内容页面的数据集并对其进行标记。在那之后，事情就很简单了

你将使用什么语言？我建议您试试这是一个基于java的工具，您只需按下一个按钮，就可以从中获取50多个算法的性能度量。在这之后，您将知道哪一个是最准确的，并且可以部署它

我觉得您正在尝试在算法中对

权限

和

中心

进行分类

```
Hub
```
是您的导航页面
```
Authority
```
是您的内容查看页面

通过对每个网页进行链接分析，您应该能够通过对域中的所有网页执行点击来找出页面的类型。如下图所示，左图显示了网页之间的链接关系。右图显示了在运行HITS后与hub/authority对应的得分。点击开始时不需要任何标签。更新规则很简单：基本上只有一个权限分数更新和另一个中心分数更新

这是一个讨论pagerank/点击率的教程，我借用了上面两个图表

是HITS的扩展版本，结合了HITS和信息检索方法（TF-IDF、向量空间模型等）。这看起来更有希望，但肯定需要更多的工作。我建议你从天真的点击开始，看看它有多好。除此之外，还可以尝试中提到的一些技术来提高性能。

如果您想自动发现这些组，我建议您自己找到一个集群算法的实现（可能是最流行的，您不需要说明要用什么语言来实现）。你知道有两个类别，因此允许你事先指定类别的数量会使问题变得更容易

之后，为你的网页定义一系列功能，并通过k-means运行它们，看看生成了什么类型的组。调整你使用的功能，直到你得到令人满意的东西。如果您可以访问网页本身，我强烈建议您使用在整个网页上定义的功能，而不仅仅是URL。

主要决策：您想从中学习这两类内容的一些标签示例，还是想自动发现组（这更难）？另外，您希望仅根据url进行分类，还是根据url处页面的内容进行分类？如果你澄清，我可以提出一些建议。我想自动发现群组。我知道这很难，但也更有趣/更具挑战性。我也意识到这并不总是可能的。但我想尝试并实现一些经过验证的算法，看看它能做多少。我之所以只提到URL，是因为我想从尽可能简单的开始。后者，更多的变量可以发挥作用来改进算法。目标是尽可能减少人为输入。如果我必须手动构建数据集，那么可能更简单的解决方案更容易/更便宜。这是一个有用的条目，我将探讨这种可能性，但是，它仍然不能准确回答我的问题。检查我对原始问题的评论。这回答了我的问题。谢谢你“聚类”和“K-means”是关键词。我可能会使用python，但我不确定这是否非常相关。