Web 对网站进行分类-开源LSI?

Web 对网站进行分类-开源LSI?,web,lexical-analysis,categorization,latent-semantic-indexing,Web,Lexical Analysis,Categorization,Latent Semantic Indexing,我期待着分类的网站很多(百万)。我可以使用Nutch对它们进行爬网并获取网站的内容,但我正在寻找最好(最便宜或免费)的工具对它们进行分类 一种选择是创建正则表达式,查找某些关键字并对站点进行分类,但也有一些高端LSI类型的工具,如Autonomy。是否有任何开源或更便宜的工具可以从网页/站点获取文本并为我分类?我需要对使用的类别类型进行一些自定义。作为分类的一部分,我希望能够识别真正只是停留页面的“假”网站,或在页面上放置广告的域名,以及普通的旧类别,如新闻、体育、科学、健康、食品、娱乐等。你成

我期待着分类的网站很多(百万)。我可以使用Nutch对它们进行爬网并获取网站的内容,但我正在寻找最好(最便宜或免费)的工具对它们进行分类


一种选择是创建正则表达式,查找某些关键字并对站点进行分类,但也有一些高端LSI类型的工具,如Autonomy。是否有任何开源或更便宜的工具可以从网页/站点获取文本并为我分类?我需要对使用的类别类型进行一些自定义。作为分类的一部分,我希望能够识别真正只是停留页面的“假”网站,或在页面上放置广告的域名,以及普通的旧类别,如新闻、体育、科学、健康、食品、娱乐等。

你成功地完成了这个项目吗?你成功地对“假”网站进行了分类吗?对于那个项目,我们最终只使用了正则表达式,但我仍然希望找到类似于我所寻找的东西。使用nutch进行文本提取是一种快速的方法吗?我们可以使用nutch进行分类还是其他用途?