Web crawler 网站分类

Web crawler 网站分类,web-crawler,web-scraping,classification,Web Crawler,Web Scraping,Classification,我需要搜刮一千个共享相同结构的网站:它们都有一个菜单、一个标题、一些文本和一个评级,很像一个博客。不幸的是,它们的编码也非常不同,有些是手动的,所以我无法重新利用CSS选择器,甚至可能不依赖它们 我想知道我如何能自动地对它们进行分类,并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块,并根据它们的大小对它们进行分类 你知道更好或更复杂的方法吗 谢谢大家! 查看以分解页面 关于分类,请看mahout.apache.org。我的建议是将问题分为两个主要部分 编写分类部分

我需要搜刮一千个共享相同结构的网站:它们都有一个菜单、一个标题、一些文本和一个评级,很像一个博客。不幸的是,它们的编码也非常不同,有些是手动的,所以我无法重新利用CSS选择器,甚至可能不依赖它们

我想知道我如何能自动地对它们进行分类,并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块,并根据它们的大小对它们进行分类

你知道更好或更复杂的方法吗

谢谢大家!

查看以分解页面


关于分类,请看mahout.apache.org。

我的建议是将问题分为两个主要部分

编写分类部分,就好像所有网站都使用相同的结构编码一样


然后编写“删除”部分,以便找到每个网站的实际结构,并将该结构从分类部分映射到您的理想结构。

同时,解决停止问题:-)这是一项艰巨的工作,很多人都投入了大量的时间。@B马格里斯:我不得不查找停顿问题。:-)这个问题的海报没有提供足够的细节,我无法确定他的分类是否可行。我只是对这类问题给出了一般的“分而治之”的答案。对不起,我应该留下一个微笑。这是一个很好的参考(谢谢!)。仅供参考,但它确实解决了第一步,即识别文档的文本内容。它不会将内容分割成字段或对其进行分类。