Lucene和Lucene.Net中的俄语分析器

Lucene对俄语的支持很差 RussianAnalyzer(lucene contrib的一部分)的质量非常低 俄罗斯的雪球模块更糟糕。它无法识别Unicode字符串中的俄语文本,显然是假设必须使用Unicode和KOI8-R的奇怪混合 你知道更好的解决方案吗?如果其他方法都失败了,那就使用开源的妙处。您有源代码,因此如果当前的实现不适合您,您可以创建自己的实现,或者更好地扩展现有的实现。 一个好的开始应该是《Lucene in Action》(Lucene in Action)一书。我的答案

如何使用Lucene MultiFieldQueryParser更改默认连词

我有一些使用Lucene的代码,将默认的连词操作符保留为或,我想将其更改为和。有些代码只是使用一个普通的QueryParser,这很好——我可以在这些实例上调用setDefaultOperator 不幸的是,在一个地方,代码使用了一个multifiedqueryparser,并调用了静态的“parse”方法(采用String、String[],BooleanClause.occure[],Analyzer),因此setDefaultOperator似乎帮不上忙,因为它是一个实例方法 是否有一种方

如何在Lucene中为一小部分文档打分

我想计算少量文档的分数,而不是给定查询的整个集合的分数。我的尝试(如下所示)为每个文档返回0分,即使我测试的查询是从我试图评分的文档中的术语派生出来的。我正在使用Lucene 3.0.3 List<Float> score(IndexReader reader, Query query, List<Integer> newDocs ) { List<Float> scores = new List<Float>(); IndexSearcher s

确定lucene多字段查询中匹配的字段

我在Lucene有一个超过10个字段的多字段搜索。当显示结果时,我想找出哪些字段实际匹配 做这件事最有效的方法是什么?这并不简单,但有几种方法可以找出“哪个字段匹配”查询 看一看

Lucene邻近搜索中的词序

是否可以指定单词的顺序对Lucene邻近搜索是否重要 “word1 word2”~3=>单词的顺序很重要(InOrder=true) 是否有一种等价的方法来编写顺序无关紧要的查询?比如: “word1 word2”~3x=>单词的顺序无关紧要(inoorder=false) 我知道,对于一个扳手查询,InOrder属性决定了顺序是否重要,但不决定我如何告诉查询员对于一个特定的扳手查询,InOrder应该是true还是false 我是否需要为此编写自己的QueryParser,以支持处理此类查询的

elasticsearch ElasticSearch和Lucene如何共享内存

关于ES官方文件中的以下配额,我有一个问题: But if you give all available memory to Elasticsearch’s heap, there won’t be any left over for Lucene. This can seriously impact the performance of full-text search. 如果我的服务器有80G内存,我会发出以下命令来启动ES节点:bin/elasticsearch-xmx30G 这意味

前导通配符在Lucene.NET中引发错误

如果搜索查询包含前导通配符(*或?),则QueryParser的Parse函数将抛出错误 Dim q As String = "*abc" Dim qp As New QueryParser("text", New StandardAnalyzer()) Dim query As Query = qp.Parse(q) 在Lucene.NET v2.0.0.4中有没有办法解决这个问题?也许你必须使用 …为了防止速度过慢 通配符查询,通配符术语 不应以以下内容之一开始: 通配符 设置为true。

Lucene搜索和下划线

当我使用标准分析器搜索我的Lucene索引时,我可以看到我搜索的字段包含形式为my_值的值。 然而,当我搜索字段“MY_VALUE”时,查询被解析为字段:“MY VALUE” 是否有一种简单的方法来转义下划线(389;)字符,以便它搜索它 编辑: 2010年4月1日太平洋标准时间上午11:08 我认为Lucene 2.9.1的标记器中有一个bug,它可能以前就存在过。 加载Luke并尝试搜索“BB_HHH_ff5_SSSS”,当有数字时,将返回以下令牌: “bb hhh_ffff5_ssss”

Lucene索引和搜索

我正在尝试使用Lucene为数据库中的表编制索引。我使用Lucene只是为了索引,字段不存储。上面提到的表有五列userid PK、description、report number、reporttype和report 如果Lucene发现了一个命中率,我打算使用userid、reportnumber和ReportType的组合从数据库中获取数据 表中的一条记录可以跨越多行,例如: JQ123,部分说明,1,FIN,FIN报告内容 JQ123,其他说明,2,数学,数学报告内容 JQ123,Yet

Lucene 解决突出显示问题

大家好,我有一个问题,当我查询Solr时,它与结果匹配,但当我启用此查询结果的高亮显示时,高亮显示不起作用 我的问题是 +内容:“第503项” 内容为文本类型,文本项目503中的一个重要内容显示为“项目503(c)”,结尾处的括号是否会造成问题??请帮忙 下面是SolrSonfig.xml中的突出显示部分 <highlighting> <!-- Configure the standard fragmenter --> <!-- This could

Lucene 如何使用SolR获得所有字段的突出显示响应

大家好: 我的文档有两个字段,名称和文本,它们的内容相同。 但当我使用高亮显示查询时,响应只返回参数q中的一个字段。 例如: htp://127.0.0.1:8983/solr/select/?q=name:sony&hl=true&hl.fl=name,text 在突出显示响应中仅返回名称 htp://127.0.0.1:8983/solr/select/?q=text:sony&hl=true&hl.fl=name,text 这仅在突出显示响应中返回文本 我想用高亮显示获取所有字段,hl.f

lucene 3.0.3 |短语查询问题

searchString=“我正在使用sql。服务器设置很简单。” 当我在上面的字符串中搜索短语查询“Sql Server”时,它给出了不正确的结果。正如上面的字符串一样,sql和server由点(.)分隔 同时使用PhraseQuery和SpanQuery会得到相同的结果 任何建议都将不胜感激 您可以编写一个分析器,它将点视为令牌,因此您将得到3个令牌——“sql”、“dot”和“server”(我不知道有任何现有的分析器可以做到这一点)。但它可能会产生不可预测的结果,所以我建议你忽略这个罕见

Lucene Hibernate Search QueryBuilder:查询非实体字段

我试图使用Hibernate Search中的QueryBuilder和一个字段,该字段不是相应实体的属性,而是使用类桥动态构造的。我可以这样做吗 QueryBuilder qb = fullTextEntityManager.getSearchFactory(). buildQueryBuilder().forEntity(Publication.class).get(); .... Query query = qb.keyword().onField("title")

Lucene忽略搜索词中的关键字

这看起来应该很简单,但我不知道如何让Lucene忽略AND、OR和NOT关键字-查询解析器在得到一个解析错误时抛出一个解析错误。我有一个查询生成器类,它可以拆分搜索词,以便搜索词本身以及词中的n-gram。我在Java中使用Lucene 因此,在搜索“ANDERSON COOPER”时,查询字符串如下所示: name: (ANDERSON COOPER "ANDERSON COOPER")^5 gram4: ( ANDE NDER DERS ERSO RSON SONC ONCO NCOO C

使用Lucene索引和搜索我的数据的最佳方式是什么?

我在SO和其他网站上发现了多个问题,它们提出了类似“如何在Lucene中索引并搜索关系数据”的问题。这些问题都得到了标准的回答,Lucene并不是为这样的数据建模而设计的。我找到的这句话概括了 Lucene索引是一个文档存储。在文档存储中,单个 文档表示一个概念,其中存储了所有必要的数据 表示该概念(与正在传播的相同概念相比) 跨RDBMS中的多个表,需要多个连接到 重新创建) 所以我不会问这个问题,而是提供我的高级需求,看看是否有Lucene大师可以帮助我 我们有关于人的数据(姓名、性别、出

Lucene:如何在查询时为不同的搜索词分配权重?

我有一个Lucene索引的语料库,包含超过100万个文档。 我正在使用lucenejavaapi进行查询,以搜索命名实体,例如“susanwitting”。 例如,我想通过搜索“Sue Witting”来扩展我的查询,但希望该术语的权重低于主查询术语 我该怎么做呢? 我在Lucene手册中找到了关于增强选项的信息。但它似乎设置为索引,并且需要字段。您可以独立增强每个查询子句。请参阅。您可以独立提升每个查询子句。如果您想对术语的单词赋予不同的权重,请参见。。然后 Query\setBoost(fl

调试Jackrabbit Lucene重新索引中止/失败

我正试图在Jackrabbit 2.0实例(实际上是一天的CRX 2.1实例)上重建Lucene搜索索引,以便我可以应用新的属性提升权重进行相关性评分。但是,它在同一点重复中止索引,计数3173000 *信息*多索引:索引/content/xxxxxx/jcr:content(3173000)(MultiIndex.java,第1209行) *信息*RepositoryImpl:正在关闭存储库。。。(RepositoryImpl.java,第1139行) (公司名称已编辑)使CRX web实例显

小精灵+;Neo4j-Lucene搜索

这个gremlin脚本(通过Neo4j的restapi执行)是否执行lucene索引上的排序?或者节点是按Neo4j排序的 g.idx('myIndex').get('name', 'aaa').sort{it.name} 另外两个问题: 1.如何设置订单?ASC/DESC 2.如何执行全文搜索(如)。我已经尝试过*,%,但没有任何效果排序是一种Groovy方法。要反转顺序,请使用反转: g.idx('myIndex').get('name', 'aaa').sort{it.name}.rev

Lucene,停止字过滤器

嗨,我正在使用StandardAnalyzer对停止词进行索引 当我索引该行时 Microsoft Excel for Macintosh 这样搜索效果很好 我在搜索和索引时使用相同的分析器 +Microsoft+Excel+for+Macintosh 当我试着这样做的时候 “Microsoft Excel for Macintosh”由于它被转换为“Microsoft Excel Macintosh”,所以我没有得到任何结果 有人知道为什么我的结果是0吗 //Trind标准QueryParse

Lucene支持在多个索引文档之间搜索吗?

在数据库中: 我有两张桌子。每个表中有三列。 表A(列A、列A1、列A2) 表B(列B、列B1、列B2) 下面是我想使用Lucene执行的SQL: 从表A、表B中选择*,其中列A=列B和列A1=XX和列B1=XX 我想创建两个索引文档(index\u Table\u A,index\u Table\u A)和如何使用Lucene或Hibernate搜索机制实现上述内容? 任何帮助都将是感激的 我不知道为什么需要索引,或者为什么首先要使用lucene,但我可以告诉您如何使用一个索引来实现它。(使用

Lucene hibernate搜索中的联接查询

我想写一个lucene查询,比如 " from activity where metaentityByEntity.id in(select metaentityByEntity.id from userentity where user.id=1)" 我的域类是: public class Activity implements java.io.Serializable { private Long id; private Date timeStamp; priva

org.apache.lucene.queryParser.ParseException

我在项目中遇到以下错误: org.apache.lucene.queryParser.ParseException:无法分析“AMERICAN EXP PROPTY CASLTY INS AND”:在第1行第34列遇到“”。 我期待的是: ... "+" ... "-" ... "(" ... "" ... ... ... ... ... "[" ... "{" ... ... ... “ 当我在任何字符串末尾添加AND时,请帮助解决…问题 它给了我上面的错误 谢谢,真有趣。 Lucene正在等

优化大Lucene索引失败

我有一个关于优化大Lucene索引的问题,它现在是197GB,对你们中的一些人来说可能听起来没那个么大。 我正在使用2.9.4版的Lucene,当我需要优化一个索引时,需要将900个段优化为更小的1-10段。我仍然在调用2.9.4中提供的IndexWriter.optimize,但设置合并因子也会以同样的方式失败 所以,在优化了一个小时的日志后,我设置了所有可能的日志,并说优化已经完成,任何日志文件中都没有错误。除了索引目录中的文件仍然相同之外,一切看起来都很好——没有减少或删除多少文件。 我在

Lucene 卢森博斯特;邻近查询

为文档编制索引时,我增强了部分文档(使用 setBoost博士) 使用邻近查询时,一切正常: “你的接近查询”~30 我不会考虑提升因素 邻近查询不支持boosting吗 下面是查询的解释输出:“女人”~30 所有结果输出如下所示: 0.0 = (NON-MATCH) weight(/d:"woman the"~30 in 342), product of: 1.0 = queryWeight(/d:"woman the"~30), product of: 2.0 = idf(/d:

Lucene 用luncene索引多语言字段

我有多语言文档记录要用lucene索引。也就是说,每个文档记录使用一种语言,但存在不同的语言记录。我打算将它们保存在一个索引中,以便可以使用多语言查询进行搜索。当前,文档记录位于一个数据输入文件中,如下所示: <DOCID>1<\DOCID> <LANGUAGE>CHINESE<\LANGUAGE> <TEXT>中文内容<\TEXT> <DOCID>2<\DOCID> <LANGUAGE>

向lucene中的文档中添加不可索引的字段-Field.Index已弃用

现在不推荐使用Field.Index向文档中添加字段的最佳方法是什么 以下是我正在做的事情以及大多数在线示例的建议: doc.add(new Field("id", dbID, Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS)); 建议在Field.Index消失的字段上设置索引属性的新方法是什么 对于不想索引的字段,请使用org.apache.lucene.document.StoredField。 参考 了解各种可用的构造函数。 例如: Stor

Lucene 从搜索结果中排除文件夹

我正在使用sitecore 7 Lucene搜索。当我搜索任何术语时,搜索结果会显示所有文件夹和页面。我可以从搜索结果中排除文件夹吗?我有以下代码从索引中搜索文档 var searcher=Sitecore.ContentSearch.ContentSearchManager.GetIndex(“Sitecore\u web\u index”); 使用(var context=searcher.CreateSearchContext()) { var query=context.GetQuery

Lucene 删除所有没有';不匹配的术语?

如何匹配所有与lucene或lucene.net中的术语不匹配的文档 如果要删除与某个术语匹配的所有文档,很容易: writer.DeleteDocuments(new Term("SomeParameter", SomeValue)); 但我实际上需要做相反的事情(我用一个唯一的标记标记每个更新的文档,我想删除所有未更新的内容,因此所有标记与我的标记不同的内容,但可能是非常不同的内容)您需要一个匹配所有没有该术语的文档的查询,但是BooleanQuery不能只包含一个MUST\u NOT子句

Lucene';s MultiFieldQueryParser忽略setDefaultOperator

我正在尝试更改MultiFieldQueryParser的默认运算符: fields = [...] query = "hello stackoverflow" clauses = [BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD, ...] parser = MultiFieldQueryParser(Version.LUCENE_CURRENT, fields, analyzer) parser.setDefaultOperat

如何控制结果的顺序?Cloudant中的Lucene范围查询

我有一个简单的索引,它以1000的增量输出从1000到12000的分数。例如,我想得到从低分到高分的一系列结果 q=score:[1000 TO 3000] 但是,它总是返回一个从3000开始的匹配列表,并且根据匹配的限制和数量,它可能永远不会返回任何1000个匹配,即使它们存在。我尝试使用sort:+-和grouping,但似乎对返回的结果没有任何影响 所以,;如何控制返回结果的顺序 理想情况下,我希望从范围中选择匹配项,但我假设这是不可能的,因为查询只是从顶部开始填充结果 作为参考,索引如

如何检查lucene索引中是否存在文档?

我有一个新闻文章索引,我保存标题、链接、新闻描述。。有时,来自同一链接的同一新闻可能由不同的新闻来源以不同的标题发布。它不希望两次添加完全相同的描述文章。如何查找文档是否已经存在?我假设您正在使用Java。 假设您的链接作为StringField保存在索引中(因此您使用的任何分析器都不会将链接分解为多个术语),您可以使用TermQuery TopDocs results=searcher.search(新术语查询(新术语(“链接”),”http://example.com")), 1); 如果(

带多级文档的嵌入式属性上的OrientDB全文Lucene搜索

我有一个类型为“embedded”的属性,并在该属性上创建了一个LUCENE索引。但它只搜索嵌入文档的第一级 e、 g.该属性称为“地点”,存储的数据结构为“国家、州、城市” 美国:{ 佛罗里达州:{ 迈阿密:“一些文字” } } 我需要能够搜索“一些文本”,这是一个城市级(第三级) 有关如何在城市级别运行查询以进行检查的任何建议?请尝试以下命令: select @rid,places[0].City from <Class name> 选择@rid,地点[0]。城市自 我实

Lucene 3.0.3-模糊搜索相似性与更高版本的编辑距离有何关联?(例如4.x)

在版本4.x之前,您可以使用介于0.1到1.0之间的浮点值设置模糊搜索的相似性。 更高版本使用0到2之间的值作为编辑距离 这些值是如何关联的?我在文档中找不到从0.1到1.0的实际浮动范围的含义 我正在使用lucene.net 3.0.3版本4.0以后的版本,只需使用 版本3.0.3将编辑距离与术语长度进行比较。如果length(term)*minSimilarity>=编辑距离(其中minSimilarity是您所指的浮点参数),则该术语被视为匹配项 因此,如果将其设置为0.5,则长度为4的项

elasticsearch Elasticsearch结合语言和分析器中的字符过滤器

我试图将语言分析器与char_过滤器结合起来,但当我查看字段html/xml标记的_termvectors时,我可以看到其中的值,它们是自定义xml标记的属性,如“22anchor_titl” 我的想法是扩展德语过滤器: settings: analysis: analyzer: node_body_analyzer: type: 'german' char_filter: ['html_strip'] mappings: mapp

Lucene 通过包含@的电子邮件部分搜索用户。Auth0

我试图通过电子邮件中包含@符号的部分来查找用户。 如果我使用类似于电子邮件:*domain.co*的模式,一切都很好,我有下一个需要验证的需求0: https://subDomainName.auth0.com/api/v2/users?q=email%3A%20*domain.co* 但是当我使用电子邮件:*@domain.co*时,它不会返回用户 请求: https://subDomainName.auth0.com/api/v2/users?q=email%3A%20*%40domain

Lucene是否能够在文档中找到匹配项的位置?

假设我有100个用Lucene索引的文档。我想搜索“美国航空公司”这个词。Lucene进行了搜索,并给了我10份包含“美国航空公司”一词的文件。我现在希望能够在我的UI中浏览这10个文档中的每一个,并自动高亮显示/滚动到每个匹配项。这些都是带有唯一id的段落标记的html文档,因此我可以使用http://docurl#p_120滚动至美国航空公司是一家大公司。。但是我怎样才能让Lucene告诉我这个词在哪一段,以及确切的位置,这样我就可以突出显示它了?你的问题是关于突出显示的。您询问如何为包含子

将Lucene Indexer和Searcher示例更新为Lucene 6.6.0

我已经更新了Lucene in Action第二版书中的索引器和搜索器示例 索引器工作正常,但搜索器不工作 我已经索引了一堆txt文件(索引过滤器txt文件) 当我使用Searcher类搜索一个单词时,我确信txt文件包含(可以用grep验证)它会找到0个匹配的文档 代码一定有问题 这是文件 pom.xml 4.0.0 com.learning lucenebook 1.0-快照 org.apache.lucene lucene岩芯 6.6.0 org.apache.lucene 卢克尼探险家

Lucene与PyLucene与Whoosh的性能比较

有没有比较Lucene、PyLucene和Whoosh的基准 Lucene似乎在人气方面遥遥领先,但我正在寻找更具Python风格的东西。所以,我只想大致了解一下折衷方案

Lucene/Solr搜索问题?

我有一个问题,我想搜索索引文本中的特定位置,让我们有一个lucene文档,其中包含文本作为 <Cover> This document contains following items 1. Business overview. 2. Risk Factors. 3. Management </Cover> <BusinessOverview> our business is xyz </BusinessOverview> <RiskFa

Lucene 基于部分词的文档搜索

我正在寻找一个文件搜索引擎(如Xapian,呼呼声,Lucene,Solr,Sphinx或其他),这是能够搜索部分条款 例如,在搜索术语“brit”时,搜索引擎应返回包含“britney”或“British”的文档,或者通常返回包含与r*brit* 切题地说,我注意到大多数引擎使用TF-IDF(术语频率逆文档频率)或其基于完整项而非部分项的派生词。除了TF-IDF用于文档检索外,还有其他成功实现的技术吗?使用lucene,您可以通过以下几种方式实现: 1.)您可以使用通配符查询*brit*(您必

Lucene 索尔:我怎样才能得到所有按分数排序的文档以及关键字列表?

我有一个Solr 3.1数据库,其中包含两个字段的电子邮件: 日期时间 正文 对于查询,我有两个参数: 今天的日期 关键词数组(“重要的东西”,“也重要”,“不太重要,但比平均水平高”) 是否可以创建对的查询 获取当天的所有文档并 通过对它们进行排序,按照相关性对它们进行排序,以便包含我的大多数关键字(重要内容)的电子邮件得分最高 带有日期的部分不是很复杂: fq=datetime[YY-MM-DDT00:00:00.000Z TO YY-MM-DDT23:59:59.999Z] 我知

Lucene 单词共现-在一组n-gram中查找一个词的共现

我该如何用Java之类的语言编写一个共现类,它获取一个满是n-gram的文件,并计算给定输入术语的单词共现 在Hadoop中是否有任何库或包可以使用Lucene(索引)或类似map reduce的东西来处理n-gram列表 谢谢。好的,假设您想在ngrams文件中找到两个不同单词的共现形式 下面是Java的伪代码: // Co-occurrence matrix Hashmap<String,HashMap<String,Integer>> map = new HashM

基于Lucene的搜索

我在基于Lucene的搜索中遇到了一个问题。我设计了一个包含五个字段的文档。考虑该文件的地址是AdvestsReal1、AddiSrSnRe2、Curror、Stand和Pin。如果要执行搜索,那么搜索已经在所有字段中完成,因此我使用布尔术语查询。因此,将检索结果。现在我不仅要回答,还要回答匹配字段。例如,如果city字段与搜索匹配,那么我应该响应city匹配搜索以及实际搜索响应。是否有任何lucene api可以满足这一要求?AFAIK没有简单的解决方案来找出与查询匹配的字段 你的选择是: 尝

Lucene.NET C中的空间问题#

我想在全文搜索中搜索有空格的句子 例:汤姆在班上是个很好的男孩。 我想搜索关键字“非常好” 我正在使用空白标记器创建/搜索索引。但是如果关键字被空格分隔,它就找不到关键字 代码: 我试过split,但它不能正常工作 有人给我建议解决这个问题的方法吗 谢谢, Vijay因为您使用的是标记化字符串,所以每个单词都是一个单独的术语。 为了找到由多个术语组成的短语,您需要使用PhraseQuery而不是WildcardQuery。 像这样: PhraseQuery phraseQuery = new P

Apache自定义Lucene评分

我试图修改Lucene的默认相似性分数,如下所示。假设每个文档和查询都由唯一的单词组成。查询q和文档d的自定义相似性分数应该是com(d,q)/(size(d)+size(q))。其中com(d,q)是出现在这两个字段中的术语数量(请注意,查询和文档中没有重复的术语)size(d)和size(q)是每个词中的词条数。我们使用WhiteSpaceAnalyzer。我们假设术语和文档频率为1,并且术语不会增加。要应用您自己的评分,您需要将设置为您自己的实现。您需要在computeNorm方法中处理s

Lucene-提供一组可索引关键字的专用令牌流/分析器

我有以下情况 我有一系列文件要索引。但我需要在我的索引中有所选择 选择标准:文档必须包含给定集中的一个关键字 这一部分很简单,我可以检查文档中是否存在这些关键字,然后为文档编制索引。 棘手的情况是(对我来说!),我只想索引这些关键字。比如说,这些关键字可以是多字的,也可以是正则表达式 这些关键词对这篇文章来说毫无意义,因为我可以把它们抽象出来——我可以生成需要索引的关键词列表 我是否可以使用现有的令牌流、分析器和过滤器组合? 如果没有,请有人给我指出正确的方向 如果我的问题不够清楚: Hash

Lucene 4.9:从索引中获取一些选定文档的TF-IDF

我在stackoverflow和其他在线资源上经常看到这个或类似的问题。然而,看起来Lucene的API的相应部分发生了很大的变化,所以总结起来:我没有找到任何可以在最新的Lucene版本上工作的示例 我所拥有的: Lucene索引+索引阅读器+索引搜索器 一堆文档(及其ID) 我想要的是: 对于仅出现在至少一个选定文档中的所有术语,我希望为每个文档获取TF-IDF。 或者换一种说法:我想为任何选定文档中出现的任何术语获取其TF-IDF值,例如,作为一个数组(即,每个选定文档一个TF-IDF

上一页 1 2 ...  32   33   34   35    36   37   38  ... 下一页 最后一页 共 78 页