Web applications 基于词频表/分布构建搜索引擎?

Web applications 基于词频表/分布构建搜索引擎?,web-applications,search-engine,keyword,frequency,lexical-analysis,Web Applications,Search Engine,Keyword,Frequency,Lexical Analysis,我承认我是一个“n00b”当涉及到许多网络开发的诀窍,所以请容忍我 我有一个网站的想法,这个想法的一部分涉及扫描特定的网页,然后根据频率(考虑上下文)建立“关键字”的排名表,以便为所述网页建立“简介” 我的问题有两个方面: A) 哪种编程语言最适合此目的(快速,特别适合处理大量数据) B) 我应该使用什么样的数据结构来创建这些频率表,以便与其他页面/表进行快速有效的分析/比较?此外,我应该如何存储表格本身,以便快速浏览并确定相关性?我基本上想创建一个基于某些启发式和特定内容的搜索引擎 到目前为止

我承认我是一个“n00b”当涉及到许多网络开发的诀窍,所以请容忍我

我有一个网站的想法,这个想法的一部分涉及扫描特定的网页,然后根据频率(考虑上下文)建立“关键字”的排名表,以便为所述网页建立“简介”

我的问题有两个方面:

A) 哪种编程语言最适合此目的(快速,特别适合处理大量数据)

B) 我应该使用什么样的数据结构来创建这些频率表,以便与其他页面/表进行快速有效的分析/比较?此外,我应该如何存储表格本身,以便快速浏览并确定相关性?我基本上想创建一个基于某些启发式和特定内容的搜索引擎


到目前为止,这个想法比我大,但我想解决它。

首先是合理的答案,然后是一些解释

a) 。任何语言。几乎任何编程语言都可以工作。 b) 。所有类型的结构。这取决于具体的任务

计算机科学中有一个领域叫做“数据挖掘”。尝试搜索这些关键字。有很多系统和库,比如SOLR、Mallet、Serene、RapidMiner、R。不同的库使用不同的语言。我建议从你最熟悉的开始


也许先读一读:

我读了很多关于数据挖掘的书。。。对于这个任务,我希望基本上为数据库中的每个项目构建流行词的频率分布(每个项目都有一个在线的概要页面)。然后,用户输入关键字,点击搜索,我需要一种算法,可以将给定的关键字与我庞大的频率分布列表进行比较,以找到最佳匹配。我打算在数据库中使用MySQL,但我仍然想知道找到匹配项的最快方法是什么。。。因为我看到这花了很长时间。哈希表在这种情况下有意义吗?