Algorithm 算法:确定主页的类型?
我已经考虑了一段时间了,所以我想我会征求一些建议: 我有一些进入某个站点根目录的爬虫程序(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是:Algorithm 算法:确定主页的类型?,algorithm,web-crawler,heuristics,Algorithm,Web Crawler,Heuristics,我已经考虑了一段时间了,所以我想我会征求一些建议: 我有一些进入某个站点根目录的爬虫程序(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是: 论坛 博客 链接目录 社交媒体网站 新闻网站 “一人现场” 我已经进行了一段时间的头脑风暴,最好的解决方案似乎是一些启发式的积分系统。我的意思是,不同的趋势会给不同的类型提供一些分数,然后程
- 论坛
- 博客
- 链接目录
- 社交媒体网站
- 新闻网站
- “一人现场”
- 目录可能很简单:如果站点索引/传出链接非常高,目录应该得到几分
- 新闻网站/博客可能很简单:如果大量的网站索引有日期时间,那么这些类型应该得到几分
否则,我想你只是在猜测是什么让一个网站成为这样。我相信你在尝试文档分类,这是一个研究得很好的主题 您将看到大量不同方法的列表。但是,在确定你所称的“趋势”之前,建议这些(或神经网络等)中的任何一个,都是过早地建议。我建议您研究一下“web文档分类”之类的东西。很明显,这是文献分类的一个相当大的子集,如果你能访问学术期刊,就会有大量不可理解的文章供你欣赏 我也发现你的想法是家庭作业——如果你特别大胆,也许可以联系教授。 最后,我认为这是一个可访问(如果格式奇怪)的网站,其中有一个一般性的,也许是过时的讨论:
恐怕我个人对这个话题不太了解,所以我最多只能告诉你关键词“文档分类”,并提供一些快速的谷歌搜索。然而,如果我想玩弄这个概念,我认为简单地寻找某些关键词的比率是一个不错的开始“趋势”。(“销售”或“购买”或“客户”是购物网站的趋势,“我的”、“意见”、“评论”,博客等等)解决此类问题的方法可能是企业的基础。完善这样一个算法可能不是一个容易的问题。阅读一本关于机器学习/数据挖掘的好书。使用人类——亚马逊机械特克公司(Amazon Mechanical Turk)为大量类似的数据提供了非常便宜的服务。是的,我昨天开始构建神经网络。。这是个好主意。你能不能给它1000个站点和类型作为输入,让它从中学习。。然后再给它1000块。。在它学到足够的知识之前?我认为你只需要不断地训练它,直到你获得了可接受的误报数量。好的机器学习实践是将数据划分为训练集和测试集(最好是开发集),以防止过度拟合。