Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene和Lucene.Net中的俄语分析器

标签： Lucene

Lucene对俄语的支持很差 RussianAnalyzer（lucene contrib的一部分）的质量非常低俄罗斯的雪球模块更糟糕。它无法识别Unicode字符串中的俄语文本，显然是假设必须使用Unicode和KOI8-R的奇怪混合你知道更好的解决方案吗？如果其他方法都失败了，那就使用开源的妙处。您有源代码，因此如果当前的实现不适合您，您可以创建自己的实现，或者更好地扩展现有的实现。一个好的开始应该是《Lucene in Action》（Lucene in Action）一书。我的答案

如何使用Lucene MultiFieldQueryParser更改默认连词

标签： Lucene operators

我有一些使用Lucene的代码，将默认的连词操作符保留为或，我想将其更改为和。有些代码只是使用一个普通的QueryParser，这很好——我可以在这些实例上调用setDefaultOperator 不幸的是，在一个地方，代码使用了一个multifiedqueryparser，并调用了静态的“parse”方法（采用String、String[]，BooleanClause.occure[]，Analyzer），因此setDefaultOperator似乎帮不上忙，因为它是一个实例方法是否有一种方

如何在Lucene中为一小部分文档打分

标签： Lucene

我想计算少量文档的分数，而不是给定查询的整个集合的分数。我的尝试（如下所示）为每个文档返回0分，即使我测试的查询是从我试图评分的文档中的术语派生出来的。我正在使用Lucene 3.0.3 List<Float> score(IndexReader reader, Query query, List<Integer> newDocs ) { List<Float> scores = new List<Float>(); IndexSearcher s

确定lucene多字段查询中匹配的字段

标签： Lucene

我在Lucene有一个超过10个字段的多字段搜索。当显示结果时，我想找出哪些字段实际匹配做这件事最有效的方法是什么？这并不简单，但有几种方法可以找出“哪个字段匹配”查询看一看

Lucene邻近搜索中的词序

标签： Lucene lucene.net

是否可以指定单词的顺序对Lucene邻近搜索是否重要 “word1 word2”~3=>单词的顺序很重要（InOrder=true）是否有一种等价的方法来编写顺序无关紧要的查询？比如： “word1 word2”~3x=>单词的顺序无关紧要（inoorder=false）我知道，对于一个扳手查询，InOrder属性决定了顺序是否重要，但不决定我如何告诉查询员对于一个特定的扳手查询，InOrder应该是true还是false 我是否需要为此编写自己的QueryParser，以支持处理此类查询的

elasticsearch ElasticSearch和Lucene如何共享内存

标签：elasticsearch Lucene

关于ES官方文件中的以下配额，我有一个问题： But if you give all available memory to Elasticsearch’s heap, there won’t be any left over for Lucene. This can seriously impact the performance of full-text search. 如果我的服务器有80G内存，我会发出以下命令来启动ES节点：bin/elasticsearch-xmx30G 这意味

elasticsearch 使用-和在Elasticsearch中进行查询字符串查询*

标签：elasticsearch Lucene full-text-searchsense

我在Elasticsearch中遇到问题。我在这里写了一个感知代码来复制它 POST myindex POST myindex/mytype { "name":"t-shirt", "season": "2016-3" } 我搜索： POST myindex/_search { "query": { "query_string": { "query": "2016-*", "fi

前导通配符在Lucene.NET中引发错误

标签： Lucene lucene.netwildcard

如果搜索查询包含前导通配符（*或？），则QueryParser的Parse函数将抛出错误 Dim q As String = "*abc" Dim qp As New QueryParser("text", New StandardAnalyzer()) Dim query As Query = qp.Parse(q) 在Lucene.NET v2.0.0.4中有没有办法解决这个问题？也许你必须使用 …为了防止速度过慢通配符查询，通配符术语不应以以下内容之一开始：通配符设置为true。

Lucene搜索和下划线

标签： Lucene lucene.net

当我使用标准分析器搜索我的Lucene索引时，我可以看到我搜索的字段包含形式为my_值的值。然而，当我搜索字段“MY_VALUE”时，查询被解析为字段：“MY VALUE” 是否有一种简单的方法来转义下划线（389;）字符，以便它搜索它编辑： 2010年4月1日太平洋标准时间上午11:08 我认为Lucene 2.9.1的标记器中有一个bug，它可能以前就存在过。加载Luke并尝试搜索“BB_HHH_ff5_SSSS”，当有数字时，将返回以下令牌： “bb hhh_ffff5_ssss”

Lucene索引和搜索

标签： Lucene

我正在尝试使用Lucene为数据库中的表编制索引。我使用Lucene只是为了索引，字段不存储。上面提到的表有五列userid PK、description、report number、reporttype和report 如果Lucene发现了一个命中率，我打算使用userid、reportnumber和ReportType的组合从数据库中获取数据表中的一条记录可以跨越多行，例如： JQ123，部分说明，1，FIN，FIN报告内容 JQ123，其他说明，2，数学，数学报告内容 JQ123，Yet

Lucene 解决突出显示问题

标签： Lucene Solr

大家好，我有一个问题，当我查询Solr时，它与结果匹配，但当我启用此查询结果的高亮显示时，高亮显示不起作用我的问题是 +内容：“第503项” 内容为文本类型，文本项目503中的一个重要内容显示为“项目503（c）”，结尾处的括号是否会造成问题？？请帮忙下面是SolrSonfig.xml中的突出显示部分 <highlighting>  <!-- This could

Lucene 如何使用SolR获得所有字段的突出显示响应

标签： Lucene Solr highlightingsolrj

大家好：我的文档有两个字段，名称和文本，它们的内容相同。但当我使用高亮显示查询时，响应只返回参数q中的一个字段。例如： htp://127.0.0.1:8983/solr/select/?q=name:sony&hl=true&hl.fl=name，text 在突出显示响应中仅返回名称 htp://127.0.0.1:8983/solr/select/?q=text:sony&hl=true&hl.fl=name，text 这仅在突出显示响应中返回文本我想用高亮显示获取所有字段，hl.f

lucene 3.0.3 |短语查询问题

标签： Lucene

searchString=“我正在使用sql。服务器设置很简单。” 当我在上面的字符串中搜索短语查询“Sql Server”时，它给出了不正确的结果。正如上面的字符串一样，sql和server由点（.）分隔同时使用PhraseQuery和SpanQuery会得到相同的结果任何建议都将不胜感激您可以编写一个分析器，它将点视为令牌，因此您将得到3个令牌——“sql”、“dot”和“server”（我不知道有任何现有的分析器可以做到这一点）。但它可能会产生不可预测的结果，所以我建议你忽略这个罕见

Lucene Hibernate Search QueryBuilder：查询非实体字段

标签： Lucene hibernate-search

我试图使用Hibernate Search中的QueryBuilder和一个字段，该字段不是相应实体的属性，而是使用类桥动态构造的。我可以这样做吗 QueryBuilder qb = fullTextEntityManager.getSearchFactory(). buildQueryBuilder().forEntity(Publication.class).get(); .... Query query = qb.keyword().onField("title")

Lucene忽略搜索词中的关键字

标签： Lucene

这看起来应该很简单，但我不知道如何让Lucene忽略AND、OR和NOT关键字-查询解析器在得到一个解析错误时抛出一个解析错误。我有一个查询生成器类，它可以拆分搜索词，以便搜索词本身以及词中的n-gram。我在Java中使用Lucene 因此，在搜索“ANDERSON COOPER”时，查询字符串如下所示： name: (ANDERSON COOPER "ANDERSON COOPER")^5 gram4: ( ANDE NDER DERS ERSO RSON SONC ONCO NCOO C

使用Lucene索引和搜索我的数据的最佳方式是什么？

标签： Lucene lucene.netfaceted-search

我在SO和其他网站上发现了多个问题，它们提出了类似“如何在Lucene中索引并搜索关系数据”的问题。这些问题都得到了标准的回答，Lucene并不是为这样的数据建模而设计的。我找到的这句话概括了 Lucene索引是一个文档存储。在文档存储中，单个文档表示一个概念，其中存储了所有必要的数据表示该概念（与正在传播的相同概念相比）跨RDBMS中的多个表，需要多个连接到重新创建）所以我不会问这个问题，而是提供我的高级需求，看看是否有Lucene大师可以帮助我我们有关于人的数据（姓名、性别、出

Lucene：如何在查询时为不同的搜索词分配权重？

标签： Lucene

我有一个Lucene索引的语料库，包含超过100万个文档。我正在使用lucenejavaapi进行查询，以搜索命名实体，例如“susanwitting”。例如，我想通过搜索“Sue Witting”来扩展我的查询，但希望该术语的权重低于主查询术语我该怎么做呢？我在Lucene手册中找到了关于增强选项的信息。但它似乎设置为索引，并且需要字段。您可以独立增强每个查询子句。请参阅。您可以独立提升每个查询子句。如果您想对术语的单词赋予不同的权重，请参见。。然后 Query\setBoost（fl

调试Jackrabbit Lucene重新索引中止/失败

标签： Lucene jackrabbitcrx

我正试图在Jackrabbit 2.0实例（实际上是一天的CRX 2.1实例）上重建Lucene搜索索引，以便我可以应用新的属性提升权重进行相关性评分。但是，它在同一点重复中止索引，计数3173000 *信息*多索引：索引/content/xxxxxx/jcr:content（3173000）（MultiIndex.java，第1209行） *信息*RepositoryImpl:正在关闭存储库。。。（RepositoryImpl.java，第1139行）（公司名称已编辑）使CRX web实例显

小精灵+；Neo4j-Lucene搜索

标签： Lucene Neo4j Gremlin

这个gremlin脚本（通过Neo4j的restapi执行）是否执行lucene索引上的排序？或者节点是按Neo4j排序的 g.idx('myIndex').get('name', 'aaa').sort{it.name} 另外两个问题： 1.如何设置订单？ASC/DESC 2.如何执行全文搜索（如）。我已经尝试过*，%，但没有任何效果排序是一种Groovy方法。要反转顺序，请使用反转： g.idx('myIndex').get('name', 'aaa').sort{it.name}.rev

Lucene，停止字过滤器

标签： Lucene stop-words

嗨，我正在使用StandardAnalyzer对停止词进行索引当我索引该行时 Microsoft Excel for Macintosh 这样搜索效果很好我在搜索和索引时使用相同的分析器 +Microsoft+Excel+for+Macintosh 当我试着这样做的时候 “Microsoft Excel for Macintosh”由于它被转换为“Microsoft Excel Macintosh”，所以我没有得到任何结果有人知道为什么我的结果是0吗 //Trind标准QueryParse

Lucene支持在多个索引文档之间搜索吗？

标签： Lucene hibernate-search

在数据库中：我有两张桌子。每个表中有三列。表A（列A、列A1、列A2）表B（列B、列B1、列B2）下面是我想使用Lucene执行的SQL：从表A、表B中选择*，其中列A=列B和列A1=XX和列B1=XX 我想创建两个索引文档（index\u Table\u A，index\u Table\u A）和如何使用Lucene或Hibernate搜索机制实现上述内容？任何帮助都将是感激的我不知道为什么需要索引，或者为什么首先要使用lucene，但我可以告诉您如何使用一个索引来实现它。（使用

Lucene hibernate搜索中的联接查询

标签： Lucene hibernate-search

我想写一个lucene查询，比如 " from activity where metaentityByEntity.id in(select metaentityByEntity.id from userentity where user.id=1)" 我的域类是： public class Activity implements java.io.Serializable { private Long id; private Date timeStamp; priva

org.apache.lucene.queryParser.ParseException

标签： Lucene elasticsearch

我在项目中遇到以下错误： org.apache.lucene.queryParser.ParseException:无法分析“AMERICAN EXP PROPTY CASLTY INS AND”：在第1行第34列遇到“”。我期待的是： ... "+" ... "-" ... "(" ... "" ... ... ... ... ... "[" ... "{" ... ... ... “ 当我在任何字符串末尾添加AND时，请帮助解决…问题它给了我上面的错误谢谢，真有趣。 Lucene正在等

优化大Lucene索引失败

标签： Lucene

我有一个关于优化大Lucene索引的问题，它现在是197GB，对你们中的一些人来说可能听起来没那个么大。我正在使用2.9.4版的Lucene，当我需要优化一个索引时，需要将900个段优化为更小的1-10段。我仍然在调用2.9.4中提供的IndexWriter.optimize，但设置合并因子也会以同样的方式失败所以，在优化了一个小时的日志后，我设置了所有可能的日志，并说优化已经完成，任何日志文件中都没有错误。除了索引目录中的文件仍然相同之外，一切看起来都很好——没有减少或删除多少文件。我在

Lucene 卢森博斯特；邻近查询

标签： Lucene proximity

为文档编制索引时，我增强了部分文档（使用 setBoost博士）使用邻近查询时，一切正常： “你的接近查询”~30 我不会考虑提升因素邻近查询不支持boosting吗下面是查询的解释输出：“女人”~30 所有结果输出如下所示： 0.0 = (NON-MATCH) weight(/d:"woman the"~30 in 342), product of: 1.0 = queryWeight(/d:"woman the"~30), product of: 2.0 = idf(/d:

Lucene 用luncene索引多语言字段

标签： Lucene multilingual

我有多语言文档记录要用lucene索引。也就是说，每个文档记录使用一种语言，但存在不同的语言记录。我打算将它们保存在一个索引中，以便可以使用多语言查询进行搜索。当前，文档记录位于一个数据输入文件中，如下所示： <DOCID>1<\DOCID> <LANGUAGE>CHINESE<\LANGUAGE> <TEXT>中文内容<\TEXT> <DOCID>2<\DOCID> <LANGUAGE>

向lucene中的文档中添加不可索引的字段-Field.Index已弃用

标签： Lucene

现在不推荐使用Field.Index向文档中添加字段的最佳方法是什么以下是我正在做的事情以及大多数在线示例的建议： doc.add(new Field("id", dbID, Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS)); 建议在Field.Index消失的字段上设置索引属性的新方法是什么对于不想索引的字段，请使用org.apache.lucene.document.StoredField。参考了解各种可用的构造函数。例如： Stor

Lucene 从搜索结果中排除文件夹

标签： Lucene Sitecore sitecore7

我正在使用sitecore 7 Lucene搜索。当我搜索任何术语时，搜索结果会显示所有文件夹和页面。我可以从搜索结果中排除文件夹吗？我有以下代码从索引中搜索文档 var searcher=Sitecore.ContentSearch.ContentSearchManager.GetIndex（“Sitecore\u web\u index”）；使用（var context=searcher.CreateSearchContext（）） { var query=context.GetQuery

将自定义分析器与Lucene 4.9一起使用时违反令牌流协定

标签： Lucene analyzer

我有一些像这样的自定义分析器： private static class ModelAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents(String string, Reader reader) { return new TokenStreamComponents( new StandardTokenizer(V

Lucene 删除所有没有'；不匹配的术语？

标签： Lucene lucene.net

如何匹配所有与lucene或lucene.net中的术语不匹配的文档如果要删除与某个术语匹配的所有文档，很容易： writer.DeleteDocuments(new Term("SomeParameter", SomeValue)); 但我实际上需要做相反的事情（我用一个唯一的标记标记每个更新的文档，我想删除所有未更新的内容，因此所有标记与我的标记不同的内容，但可能是非常不同的内容）您需要一个匹配所有没有该术语的文档的查询，但是BooleanQuery不能只包含一个MUST\u NOT子句

Lucene'；s MultiFieldQueryParser忽略setDefaultOperator

标签： Lucene pylucene

我正在尝试更改MultiFieldQueryParser的默认运算符： fields = [...] query = "hello stackoverflow" clauses = [BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD, ...] parser = MultiFieldQueryParser(Version.LUCENE_CURRENT, fields, analyzer) parser.setDefaultOperat

如何控制结果的顺序？Cloudant中的Lucene范围查询

标签： Lucene cloudant

我有一个简单的索引，它以1000的增量输出从1000到12000的分数。例如，我想得到从低分到高分的一系列结果 q=score:[1000 TO 3000] 但是，它总是返回一个从3000开始的匹配列表，并且根据匹配的限制和数量，它可能永远不会返回任何1000个匹配，即使它们存在。我尝试使用sort:+-和grouping，但似乎对返回的结果没有任何影响所以,；如何控制返回结果的顺序理想情况下，我希望从范围中选择匹配项，但我假设这是不可能的，因为查询只是从顶部开始填充结果作为参考，索引如

如何检查lucene索引中是否存在文档？

标签： Lucene

我有一个新闻文章索引，我保存标题、链接、新闻描述。。有时，来自同一链接的同一新闻可能由不同的新闻来源以不同的标题发布。它不希望两次添加完全相同的描述文章。如何查找文档是否已经存在？我假设您正在使用Java。假设您的链接作为StringField保存在索引中（因此您使用的任何分析器都不会将链接分解为多个术语），您可以使用TermQuery TopDocs results=searcher.search（新术语查询（新术语（“链接”），”http://example.com")), 1); 如果（

带多级文档的嵌入式属性上的OrientDB全文Lucene搜索

标签： Lucene full-text-search Orientdb

我有一个类型为“embedded”的属性，并在该属性上创建了一个LUCENE索引。但它只搜索嵌入文档的第一级 e、 g.该属性称为“地点”，存储的数据结构为“国家、州、城市” 美国：{ 佛罗里达州：{ 迈阿密：“一些文字” } } 我需要能够搜索“一些文本”，这是一个城市级（第三级）有关如何在城市级别运行查询以进行检查的任何建议？请尝试以下命令： select @rid,places[0].City from <Class name> 选择@rid，地点[0]。城市自我实

Lucene 3.0.3-模糊搜索相似性与更高版本的编辑距离有何关联？（例如4.x）

标签： Lucene lucene.net

在版本4.x之前，您可以使用介于0.1到1.0之间的浮点值设置模糊搜索的相似性。更高版本使用0到2之间的值作为编辑距离这些值是如何关联的？我在文档中找不到从0.1到1.0的实际浮动范围的含义我正在使用lucene.net 3.0.3版本4.0以后的版本，只需使用版本3.0.3将编辑距离与术语长度进行比较。如果length（term）*minSimilarity>=编辑距离（其中minSimilarity是您所指的浮点参数），则该术语被视为匹配项因此，如果将其设置为0.5，则长度为4的项

elasticsearch Elasticsearch结合语言和分析器中的字符过滤器

标签：elasticsearch Lucene

我试图将语言分析器与char_过滤器结合起来，但当我查看字段html/xml标记的_termvectors时，我可以看到其中的值，它们是自定义xml标记的属性，如“22anchor_titl” 我的想法是扩展德语过滤器： settings: analysis: analyzer: node_body_analyzer: type: 'german' char_filter: ['html_strip'] mappings: mapp

Lucene 通过包含@的电子邮件部分搜索用户。Auth0

标签： Lucene auth0

我试图通过电子邮件中包含@符号的部分来查找用户。如果我使用类似于电子邮件：*domain.co*的模式，一切都很好，我有下一个需要验证的需求0: https://subDomainName.auth0.com/api/v2/users?q=email%3A%20*domain.co* 但是当我使用电子邮件：*@domain.co*时，它不会返回用户请求： https://subDomainName.auth0.com/api/v2/users?q=email%3A%20*%40domain

Lucene是否能够在文档中找到匹配项的位置？

标签： Lucene

假设我有100个用Lucene索引的文档。我想搜索“美国航空公司”这个词。Lucene进行了搜索，并给了我10份包含“美国航空公司”一词的文件。我现在希望能够在我的UI中浏览这10个文档中的每一个，并自动高亮显示/滚动到每个匹配项。这些都是带有唯一id的段落标记的html文档，因此我可以使用http://docurl#p_120滚动至美国航空公司是一家大公司。。但是我怎样才能让Lucene告诉我这个词在哪一段，以及确切的位置，这样我就可以突出显示它了？你的问题是关于突出显示的。您询问如何为包含子

将Lucene Indexer和Searcher示例更新为Lucene 6.6.0

标签： Lucene

我已经更新了Lucene in Action第二版书中的索引器和搜索器示例索引器工作正常，但搜索器不工作我已经索引了一堆txt文件（索引过滤器txt文件）当我使用Searcher类搜索一个单词时，我确信txt文件包含（可以用grep验证）它会找到0个匹配的文档代码一定有问题这是文件 pom.xml 4.0.0 com.learning lucenebook 1.0-快照 org.apache.lucene lucene岩芯 6.6.0 org.apache.lucene 卢克尼探险家

Lucene与PyLucene与Whoosh的性能比较

标签： Lucene whooshpylucene

有没有比较Lucene、PyLucene和Whoosh的基准 Lucene似乎在人气方面遥遥领先，但我正在寻找更具Python风格的东西。所以，我只想大致了解一下折衷方案

Lucene/Solr搜索问题？

标签： Lucene Solr lucene.net

我有一个问题，我想搜索索引文本中的特定位置，让我们有一个lucene文档，其中包含文本作为 <Cover> This document contains following items 1. Business overview. 2. Risk Factors. 3. Management </Cover> <BusinessOverview> our business is xyz </BusinessOverview> <RiskFa

Lucene 基于部分词的文档搜索

标签： Lucene Solr information-retrievalxapianwhoosh

我正在寻找一个文件搜索引擎（如Xapian，呼呼声，Lucene，Solr，Sphinx或其他），这是能够搜索部分条款例如，在搜索术语“brit”时，搜索引擎应返回包含“britney”或“British”的文档，或者通常返回包含与r*brit* 切题地说，我注意到大多数引擎使用TF-IDF（术语频率逆文档频率）或其基于完整项而非部分项的派生词。除了TF-IDF用于文档检索外，还有其他成功实现的技术吗？使用lucene，您可以通过以下几种方式实现： 1.）您可以使用通配符查询*brit*（您必

Lucene 索尔：我怎样才能得到所有按分数排序的文档以及关键字列表？

标签： Lucene Solr

我有一个Solr 3.1数据库，其中包含两个字段的电子邮件：日期时间正文对于查询，我有两个参数：今天的日期关键词数组（“重要的东西”，“也重要”，“不太重要，但比平均水平高”）是否可以创建对的查询获取当天的所有文档并通过对它们进行排序，按照相关性对它们进行排序，以便包含我的大多数关键字（重要内容）的电子邮件得分最高带有日期的部分不是很复杂： fq=datetime[YY-MM-DDT00:00:00.000Z TO YY-MM-DDT23:59:59.999Z] 我知

Lucene 单词共现-在一组n-gram中查找一个词的共现

标签： Lucene Hadoop Nlp weka

我该如何用Java之类的语言编写一个共现类，它获取一个满是n-gram的文件，并计算给定输入术语的单词共现在Hadoop中是否有任何库或包可以使用Lucene（索引）或类似map reduce的东西来处理n-gram列表谢谢。好的，假设您想在ngrams文件中找到两个不同单词的共现形式下面是Java的伪代码： // Co-occurrence matrix Hashmap<String,HashMap<String,Integer>> map = new HashM

基于Lucene的搜索

标签： Lucene

我在基于Lucene的搜索中遇到了一个问题。我设计了一个包含五个字段的文档。考虑该文件的地址是AdvestsReal1、AddiSrSnRe2、Curror、Stand和Pin。如果要执行搜索，那么搜索已经在所有字段中完成，因此我使用布尔术语查询。因此，将检索结果。现在我不仅要回答，还要回答匹配字段。例如，如果city字段与搜索匹配，那么我应该响应city匹配搜索以及实际搜索响应。是否有任何lucene api可以满足这一要求？AFAIK没有简单的解决方案来找出与查询匹配的字段你的选择是：尝

Lucene.NET C中的空间问题#

标签： Lucene lucene.net

我想在全文搜索中搜索有空格的句子例：汤姆在班上是个很好的男孩。我想搜索关键字“非常好” 我正在使用空白标记器创建/搜索索引。但是如果关键字被空格分隔，它就找不到关键字代码：我试过split，但它不能正常工作有人给我建议解决这个问题的方法吗谢谢， Vijay因为您使用的是标记化字符串，所以每个单词都是一个单独的术语。为了找到由多个术语组成的短语，您需要使用PhraseQuery而不是WildcardQuery。像这样： PhraseQuery phraseQuery = new P

Apache自定义Lucene评分

标签： Lucene sizesimilarityscoring

我试图修改Lucene的默认相似性分数，如下所示。假设每个文档和查询都由唯一的单词组成。查询q和文档d的自定义相似性分数应该是com（d，q）/（size（d）+size（q））。其中com（d，q）是出现在这两个字段中的术语数量（请注意，查询和文档中没有重复的术语）size（d）和size（q）是每个词中的词条数。我们使用WhiteSpaceAnalyzer。我们假设术语和文档频率为1，并且术语不会增加。要应用您自己的评分，您需要将设置为您自己的实现。您需要在computeNorm方法中处理s

Lucene-提供一组可索引关键字的专用令牌流/分析器

标签： Lucene

我有以下情况我有一系列文件要索引。但我需要在我的索引中有所选择选择标准：文档必须包含给定集中的一个关键字这一部分很简单，我可以检查文档中是否存在这些关键字，然后为文档编制索引。棘手的情况是（对我来说！），我只想索引这些关键字。比如说，这些关键字可以是多字的，也可以是正则表达式这些关键词对这篇文章来说毫无意义，因为我可以把它们抽象出来——我可以生成需要索引的关键词列表我是否可以使用现有的令牌流、分析器和过滤器组合？如果没有，请有人给我指出正确的方向如果我的问题不够清楚： Hash

无法创建类型为Sitecore.ContentSearch.LuceneProvider.Analyzers.DefaultPerFieldAnalyzer的实例。找不到匹配的构造函数

标签： Lucene Sitecore sitecore7.1

我们正在将项目从sitecore 6.2迁移到sitecore 7.1 我正在尝试在升级Lucene Search后安装Active Directory软件包“Sitecore Active Directory 1.1 rev.130705”。我发现了错误 "Sitecore.Exceptions.ConfigurationException: Could not create instance of type: Sitecore.ContentSearch.LuceneProvider.An

Lucene 4.9：从索引中获取一些选定文档的TF-IDF

标签： Lucene tf-idfterm

我在stackoverflow和其他在线资源上经常看到这个或类似的问题。然而，看起来Lucene的API的相应部分发生了很大的变化，所以总结起来：我没有找到任何可以在最新的Lucene版本上工作的示例我所拥有的： Lucene索引+索引阅读器+索引搜索器一堆文档（及其ID）我想要的是：对于仅出现在至少一个选定文档中的所有术语，我希望为每个文档获取TF-IDF。或者换一种说法：我想为任何选定文档中出现的任何术语获取其TF-IDF值，例如，作为一个数组（即，每个选定文档一个TF-IDF