Search 是否有不使用搜索索引文件的开源Web搜索库?

Search 是否有不使用搜索索引文件的开源Web搜索库?,search,Search,我正在寻找一个不使用搜索索引文件的开源web搜索库。 你知道吗 谢谢, 肯尼斯(Kenneth)原海报在对该回复的评论中澄清说,他所寻找的基本上是“greplike搜索,但通过HTTP”,并提到他正在寻找使用少量磁盘的东西,因为他正在使用嵌入式系统 我不知道有任何相关的项目,但您可能想看看您选择的语言中的html解析器和xquery实现。您应该能够使用前者处理html的“现实生活”混乱,并编写一个搜索,该搜索几乎与您使用后者所希望的一样详细 我假设您将使用一组URL,这些URL要么提供,要么已经

我正在寻找一个不使用搜索索引文件的开源web搜索库。 你知道吗

谢谢,
肯尼斯(Kenneth)

原海报在对该回复的评论中澄清说,他所寻找的基本上是“greplike搜索,但通过HTTP”,并提到他正在寻找使用少量磁盘的东西,因为他正在使用嵌入式系统

我不知道有任何相关的项目,但您可能想看看您选择的语言中的html解析器和xquery实现。您应该能够使用前者处理html的“现实生活”混乱,并编写一个搜索,该搜索几乎与您使用后者所希望的一样详细

我假设您将使用一组URL,这些URL要么提供,要么已经存储在本地,因为在嵌入式设备中实际抓取整个web、发现链接等的想法是完全不现实的

虽然有一个很好的html/xquery实现,但您确实拥有提取所有链接的工具

我最初的回答实际上是要求澄清:

不知道你的意思。你如何想象一个没有索引的搜索工作?为每个查询爬网?通过管道传送到谷歌?或者您指的是您试图避免的特定类型的搜索索引文件吗?

您的意思是:

search.cgi

#/bin/sh
arg=`echo $QUERY | sed -e 's/^s=//' -e 's/&.*$//'`
cd /var/www/httpd
find . -type f | xargs egrep -l "$arg" | awk 'BEGIN { 
        print "Content-type: text/html"; 
        print "";
        print "<HTML><HEAD><TITLE>Search Result</TITLE></HEAD>";
        print "<BODY><P>Here are your search results, sorry it took so long.</P>";
        print "<UL>";
    }
    { print  "<LI><A HREF=\"http://yourhost.com/" $1 "\">" $1 "</A></LI>"; }
    END {
        print "</UL></BODY>";
    }'
#/bin/sh
arg=`echo$QUERY | sed-e's/^s=/'-e's/&.*$/'`
cd/var/www/httpd
找到-输入f | xargs egrep-l“$arg”| awk'BEGIN{
打印“内容类型:文本/html”;
打印“”;
打印“搜索结果”;
打印“

这是您的搜索结果,抱歉花了这么长时间。

”; 打印“
    ”; } {打印“
  • ”;} 结束{ 打印“
”; }'
未经测试…

我想没有(至少这里的用户知道这一点)


我们已经开始编写我们自己的搜索系统。

>你如何想象没有索引的搜索工作?我把它描绘成类似grep的搜索,但是通过HTTP进行的为每个查询爬网?是的。>>通过管道传送到谷歌?不,我在避免创建索引文件,因为在嵌入式环境中,磁盘空间非常有限。。像那样的。。但是,一个更完善的版本:)由于它会像预期的那样慢,我正在考虑在用户等待时显示部分结果。