Algorithm 算法：确定主页的类型？_Algorithm_Web Crawler_Heuristics

Algorithm 算法：确定主页的类型？

algorithm web-crawler

Algorithm 算法：确定主页的类型？,algorithm,web-crawler,heuristics,Algorithm,Web Crawler,Heuristics,我已经考虑了一段时间了，所以我想我会征求一些建议：我有一些进入某个站点根目录的爬虫程序（可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com）。然后我需要确定我访问的是什么样的“主页”。。例如，不同的类型可以是：论坛博客链接目录社交媒体网站新闻网站 “一人现场” 我已经进行了一段时间的头脑风暴，最好的解决方案似乎是一些启发式的积分系统。我的意思是，不同的趋势会给不同的类型提供一些分数，然后程

我已经考虑了一段时间了，所以我想我会征求一些建议：

我有一些进入某个站点根目录的爬虫程序（可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com）。然后我需要确定我访问的是什么样的“主页”。。例如，不同的类型可以是：

论坛
博客
链接目录
社交媒体网站
新闻网站
“一人现场”

我已经进行了一段时间的头脑风暴，最好的解决方案似乎是一些启发式的积分系统。我的意思是，不同的趋势会给不同的类型提供一些分数，然后程序会进行猜测

但这就是我被卡住的地方。。你如何发现趋势

目录可能很简单：如果站点索引/传出链接非常高，目录应该得到几分
新闻网站/博客可能很简单：如果大量的网站索引有日期时间，那么这些类型应该得到几分

但我真的找不到太多的趋势

所以：我的问题是：有什么办法吗？

非常感谢..

你可以训练a来识别它们。给出链接的数量/类型，可能还有HTML标记的类型

否则，我想你只是在猜测是什么让一个网站成为这样。

我相信你在尝试文档分类，这是一个研究得很好的主题

您将看到大量不同方法的列表。但是，在确定你所称的“趋势”之前，建议这些（或神经网络等）中的任何一个，都是过早地建议。我建议您研究一下“web文档分类”之类的东西。很明显，这是文献分类的一个相当大的子集，如果你能访问学术期刊，就会有大量不可理解的文章供你欣赏

我也发现你的想法是家庭作业——如果你特别大胆，也许可以联系教授。

最后，我认为这是一个可访问（如果格式奇怪）的网站，其中有一个一般性的，也许是过时的讨论：

恐怕我个人对这个话题不太了解，所以我最多只能告诉你关键词“文档分类”，并提供一些快速的谷歌搜索。然而，如果我想玩弄这个概念，我认为简单地寻找某些关键词的比率是一个不错的开始“趋势”。（“销售”或“购买”或“客户”是购物网站的趋势，“我的”、“意见”、“评论”，博客等等）

解决此类问题的方法可能是企业的基础。完善这样一个算法可能不是一个容易的问题。阅读一本关于机器学习/数据挖掘的好书。使用人类——亚马逊机械特克公司（Amazon Mechanical Turk）为大量类似的数据提供了非常便宜的服务。是的，我昨天开始构建神经网络。。这是个好主意。你能不能给它1000个站点和类型作为输入，让它从中学习。。然后再给它1000块。。在它学到足够的知识之前？我认为你只需要不断地训练它，直到你获得了可接受的误报数量。好的机器学习实践是将数据划分为训练集和测试集（最好是开发集），以防止过度拟合。