Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 算法:确定主页的类型?_Algorithm_Web Crawler_Heuristics - Fatal编程技术网

Algorithm 算法:确定主页的类型?

Algorithm 算法:确定主页的类型?,algorithm,web-crawler,heuristics,Algorithm,Web Crawler,Heuristics,我已经考虑了一段时间了,所以我想我会征求一些建议: 我有一些进入某个站点根目录的爬虫程序(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是: 论坛 博客 链接目录 社交媒体网站 新闻网站 “一人现场” 我已经进行了一段时间的头脑风暴,最好的解决方案似乎是一些启发式的积分系统。我的意思是,不同的趋势会给不同的类型提供一些分数,然后程

我已经考虑了一段时间了,所以我想我会征求一些建议:

我有一些进入某个站点根目录的爬虫程序(可以是www.StackOverFlow.com、www.SomeDudesPersonalSite.se甚至www.Facebook.com)。然后我需要确定我访问的是什么样的“主页”。。例如,不同的类型可以是:

  • 论坛
  • 博客
  • 链接目录
  • 社交媒体网站
  • 新闻网站
  • “一人现场”
我已经进行了一段时间的头脑风暴,最好的解决方案似乎是一些启发式的积分系统。我的意思是,不同的趋势会给不同的类型提供一些分数,然后程序会进行猜测

但这就是我被卡住的地方。。你如何发现趋势

  • 目录可能很简单:如果站点索引/传出链接非常高,目录应该得到几分
  • 新闻网站/博客可能很简单:如果大量的网站索引有日期时间,那么这些类型应该得到几分
但我真的找不到太多的趋势

所以:我的问题是: 有什么办法吗?

非常感谢..

你可以训练a来识别它们。给出链接的数量/类型,可能还有HTML标记的类型


否则,我想你只是在猜测是什么让一个网站成为这样。

我相信你在尝试文档分类,这是一个研究得很好的主题

您将看到大量不同方法的列表。但是,在确定你所称的“趋势”之前,建议这些(或神经网络等)中的任何一个,都是过早地建议。我建议您研究一下“web文档分类”之类的东西。很明显,这是文献分类的一个相当大的子集,如果你能访问学术期刊,就会有大量不可理解的文章供你欣赏

我也发现你的想法是家庭作业——如果你特别大胆,也许可以联系教授。

最后,我认为这是一个可访问(如果格式奇怪)的网站,其中有一个一般性的,也许是过时的讨论:


恐怕我个人对这个话题不太了解,所以我最多只能告诉你关键词“文档分类”,并提供一些快速的谷歌搜索。然而,如果我想玩弄这个概念,我认为简单地寻找某些关键词的比率是一个不错的开始“趋势”。(“销售”或“购买”或“客户”是购物网站的趋势,“我的”、“意见”、“评论”,博客等等)

解决此类问题的方法可能是企业的基础。完善这样一个算法可能不是一个容易的问题。阅读一本关于机器学习/数据挖掘的好书。使用人类——亚马逊机械特克公司(Amazon Mechanical Turk)为大量类似的数据提供了非常便宜的服务。是的,我昨天开始构建神经网络。。这是个好主意。你能不能给它1000个站点和类型作为输入,让它从中学习。。然后再给它1000块。。在它学到足够的知识之前?我认为你只需要不断地训练它,直到你获得了可接受的误报数量。好的机器学习实践是将数据划分为训练集和测试集(最好是开发集),以防止过度拟合。