Java 构建规模非常小但多线程分布式搜索引擎

Java 构建规模非常小但多线程分布式搜索引擎,java,multithreading,search-engine,Java,Multithreading,Search Engine,我们(5人组)在本学期已完成上述项目。我们对搜索引擎的工作原理进行了概述。我们从学习使用JAVA语言构建网络爬虫开始。我想知道在构建这个项目的过程中需要哪些技术/编程语言 我想使用的API或软件包是否已经可用 而不是硬编码每一件事。就像有一个LUCENE 提供高效文本搜索的包(基于java构建) 我想我们可以使用的算法 最适合使用的编程语言是什么, java/python/c++还是其他 这是我的两分钱。如果你的项目是建立一个搜索引擎地面,考虑看纸页和BRIN()。当然,谷歌现在并没有使用同样的

我们(5人组)在本学期已完成上述项目。我们对搜索引擎的工作原理进行了概述。我们从学习使用JAVA语言构建网络爬虫开始。我想知道在构建这个项目的过程中需要哪些技术/编程语言

  • 我想使用的API或软件包是否已经可用 而不是硬编码每一件事。就像有一个LUCENE 提供高效文本搜索的包(基于java构建) 我想我们可以使用的算法
  • 最适合使用的编程语言是什么, java/python/c++还是其他

  • 这是我的两分钱。如果你的项目是建立一个搜索引擎地面,考虑看纸页和BRIN()。当然,谷歌现在并没有使用同样的方法,但其基础仍然相似。如果您使用的是Lucene,那么您所需要做的就是创建前端。但是如果你计划自己做所有的事情,你需要考虑如何排列一个页面,你多久更新一次索引,以及如何存储索引。请注意,今天的web不仅包含文本数据,还包含视频、推特、图像和其他形式的媒体。考虑为他们制定一个计划。和任何搜索引擎一样,您的优先级应该是快速查找,这取决于索引的存储和检索方式。另一个优先事项是以特定格式显示结果。考虑制定一个这样的计划,比如它基于反向链接的数量、新鲜度等等。

    从未见过Python编译器…此外,您肯定需要一个数据库体系结构来存储搜索索引/缓存(或无限量的RAM lol),至少这个问题不能被否决。他必须得到经验丰富的专业人士的帮助…@AlexR你为什么要为无限公羊而烦恼,哈哈???如果你明白我的意思的话,他会小规模地表演。他不是在创建谷歌搜索引擎@是的,我们这样做主要是为了学习。。。我们实验室里有足够的系统供我们使用,所以考虑到这个小规模的项目,这不会是一个问题。@shekharsuman,等等,什么?他必须得到帮助吗?然后支付这些专业人士的帮助。