Web crawler 网站分类_Web Crawler_Web Scraping_Classification

Web crawler 网站分类

web-crawler web-scraping

Web crawler 网站分类,web-crawler,web-scraping,classification,Web Crawler,Web Scraping,Classification,我需要搜刮一千个共享相同结构的网站：它们都有一个菜单、一个标题、一些文本和一个评级，很像一个博客。不幸的是，它们的编码也非常不同，有些是手动的，所以我无法重新利用CSS选择器，甚至可能不依赖它们我想知道我如何能自动地对它们进行分类，并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块，并根据它们的大小对它们进行分类你知道更好或更复杂的方法吗谢谢大家! 查看以分解页面关于分类，请看mahout.apache.org。我的建议是将问题分为两个主要部分编写分类部分

我需要搜刮一千个共享相同结构的网站：它们都有一个菜单、一个标题、一些文本和一个评级，很像一个博客。不幸的是，它们的编码也非常不同，有些是手动的，所以我无法重新利用CSS选择器，甚至可能不依赖它们

我想知道我如何能自动地对它们进行分类，并保存我剩下的头发。我的第一个猜测是使用lynx或其他文本浏览器来获取一些文本块，并根据它们的大小对它们进行分类

你知道更好或更复杂的方法吗

谢谢大家!

查看以分解页面

关于分类，请看mahout.apache.org。

我的建议是将问题分为两个主要部分

编写分类部分，就好像所有网站都使用相同的结构编码一样

然后编写“删除”部分，以便找到每个网站的实际结构，并将该结构从分类部分映射到您的理想结构。

同时，解决停止问题：-）这是一项艰巨的工作，很多人都投入了大量的时间。@B马格里斯：我不得不查找停顿问题。：-）这个问题的海报没有提供足够的细节，我无法确定他的分类是否可行。我只是对这类问题给出了一般的“分而治之”的答案。对不起，我应该留下一个微笑。这是一个很好的参考（谢谢！）。仅供参考，但它确实解决了第一步，即识别文档的文本内容。它不会将内容分割成字段或对其进行分类。