Machine learning 从网页分类网站类型

Machine learning 从网页分类网站类型,machine-learning,document-classification,Machine Learning,Document Classification,是否有任何可靠/部署的方法、算法或工具通过解析网站的某些网页来标记网站类型 例如:论坛、博客、新闻发布网站、新闻、电子通讯等 我正在寻找一些定义良好的特征(静态规则),从中可以确定这一点。如果没有,那么我希望机器学习模型可以有所帮助 建议/想法?如果从机器学习的角度来看,朴素贝叶斯分类器可能具有最大的工作/回报率。它的一个版本用于对新闻文章进行分类 您将需要一个页面集合,每个页面都标记有相应的类别。然后从每个页面提取单词或其他相关元素,并将它们用作功能 Dobbs博士对实现Naive Bayes

是否有任何可靠/部署的方法、算法或工具通过解析网站的某些网页来标记网站类型

例如:论坛、博客、新闻发布网站、新闻、电子通讯等

我正在寻找一些定义良好的特征(静态规则),从中可以确定这一点。如果没有,那么我希望机器学习模型可以有所帮助


建议/想法?

如果从机器学习的角度来看,朴素贝叶斯分类器可能具有最大的工作/回报率。它的一个版本用于对新闻文章进行分类

您将需要一个页面集合,每个页面都标记有相应的类别。然后从每个页面提取单词或其他相关元素,并将它们用作功能


Dobbs博士对实现Naive Bayes有着独特的见解

如果您对探索Naive Bayes方法感兴趣(毕竟还有其他机器学习选项),那么我建议您使用以下文档,该文档遵循Witten和Frank在“数据挖掘:实用机器学习工具和技术”中对本主题的介绍: