Web crawler webcrawler分析找到的页面

Web crawler webcrawler分析找到的页面,web-crawler,Web Crawler,我写了一篇短文。我获取了所有的网站,但它们都在我的硬盘上。 现在我想对它们进行分析,这样我就可以编写一个简单的界面,比如www.google.de,并在我获取的页面中搜索信息 问题是如何“快速”找到重要信息。因此,计算非常重要。它可以是实时的,也可以是在提取之后。我的想法是写一份含有英语单词列表的口述材料,并数一数词条。。。或者怎么办?我需要学习如何提取信息并压缩它们。但是我不知道去哪里找 爬虫是基于C++的MySQL,其中链接存储。 我希望我的问题是清楚的D 顺便说一句,我的英语很差,但在德语

我写了一篇短文。我获取了所有的网站,但它们都在我的硬盘上。 现在我想对它们进行分析,这样我就可以编写一个简单的界面,比如www.google.de,并在我获取的页面中搜索信息

问题是如何“快速”找到重要信息。因此,计算非常重要。它可以是实时的,也可以是在提取之后。我的想法是写一份含有英语单词列表的口述材料,并数一数词条。。。或者怎么办?我需要学习如何提取信息并压缩它们。但是我不知道去哪里找

爬虫是基于C++的MySQL,其中链接存储。 我希望我的问题是清楚的D


顺便说一句,我的英语很差,但在德语中有这样一块板:信息检索(IR)是一门复杂的科学

你看过任何标准文本吗?比如:

Christopher D.Manning、Prabhakar Raghavan和Hinrich Schütze介绍信息检索(2008年7月7日)

信息检索:Stefan Büttcher、Charles L.A.Clarke和Gordon V.Cormack(2010年7月23日)实施和评估搜索引擎

在亚马逊上搜索“信息检索”了解更多信息

您还可以看看我的答案,其中概述了用于搜索的爬行式网站的一般架构