Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene 找出maxClauseCount设置为1024错误的原因

标签： Lucene lucene.net

我有两组搜索索引。 TestIndex（用于我们的测试环境）和ProdIndex（用于生产环境）。 Lucene搜索查询：+date:[20090410184806到20091007184806]对于测试索引可以正常工作，但是对于Prod索引给出了此错误消息 “maxClauseCount设置为1024” 若我在执行搜索查询之前执行下面的行，那个么我不会得到这个错误。 BooleanQuery.SetMaxClauseCount（Int16.MaxValue）； searcher.Search（

查找具有特定字段的所有Lucene文档

标签： Lucene

我希望在索引中查找所有具有某个字段的文档，而不考虑该字段的值。如果可能，请使用查询语言，而不是API 有办法吗？如果您知道字段中存储的数据类型，可以尝试范围查询。例如，如果您的字段包含字符串数据，像字段：[a*到z*]这样的查询将返回该字段中有字符串值的所有文档。我做了一些实验，实现这一点的最简单方法似乎是创建QueryParser并调用setAllowReadingWildcard（true）并搜索字段：如下： var qp = new QueryParser( Lucene.Net.Util

lucene.net中的默认排序

标签： Lucene lucene.net

我的索引包含约400万个重复词当我对结果进行排序时，查询的运行速度要慢得多，这并不奇怪我的问题是，是否有某种方法来创建索引，以便在我进行调用但未传递排序时，它按我最近使用的字段进行排序谢谢。默认情况下，lucene按顺序返回结果，这取决于相关性。据我所知，如果您喜欢其他列表顺序，您必须使用boost、sort函数或其他功能。无论你取什么-使用排序或boost函数，结果返回的速度不会更快。Boosting（通常）会比排序快，因为你可以限制返回结果的数量，这是一个很好的选择。

Lucene Solr索引拉取失败

标签： Lucene Solr

我有solr的主-从配置。主索引将全天候更新。这是一个连续的过程。我的从索引每30分钟从主索引中提取一次问题是，由于以下异常，此索引提取失败 SnapPull失败：org.apache.solr.common.SolrException:索引获取失败：在 org.apache.solr.handler.SnapPuller.fetchLatestIndex（SnapPuller.java:329） [：1.4.1 955763米-马克-2010-06-17 18:06:42] org.apa

Lucene 删除常用英语单词策略

标签： Lucene wekastop-wordssnowball

我想从html页面中提取相关关键字我已经删除了所有html内容，将文本拆分为单词，使用词干分析器，并从lucene中删除了所有出现在停止词列表中的单词但是现在我仍然有很多基本的动词和代词作为最常用的词在lucene、snowball或其他任何地方是否有某种方法或一组单词可以过滤掉所有这些东西，如“我、是、去、去、是、是、是、我们、你、我们……”这似乎是一个非常简单的逆文档频率应用。如果你有一个小语料库，比如说10000个网页，你就可以计算出每个单词出现在文档中的概率。然后选择一个你认为单词

Lucene ElasticSearch：配置自定义分析器实现

标签： Lucene elasticsearchjsm

目前，我正在评估是否以及如何将基于lucene的传统analyzer组件移动到弹性搜索（0.19.18）。由于遗留代码基于lucene，我将分析器包装在es插件中。分析仪的配置如下所示： index.analysis.analyzer.myAnalyzer.type : myAnalyzer index.analysis.analyzer.default.type: myAnalyzer index.analysis.analyzer.default_index.type: myAnalyzer

根据lucene中的用户名查询

标签： Lucene full-text-search

我想在博客网站上提供搜索功能。但我不仅要搜索整个文档，还要搜索一位作者的文档。由于我希望使用lucene提供全文索引，因此在创建索引时如何做到这一点？将作者的姓名作为单独的字段进行索引将允许您搜索包含“lucene”和“fisher”作者的所有文档，例如（“QueryParser语法中的“lucene作者：fisher”）

Lucene查询不会返回结果，即使它应该返回结果

标签： Lucene

我目前正在尝试从RamDirectory中的Lucene索引（v.4）获取所有文档在创建索引时，使用以下addDocument函数： public void addDocument(int id, String[] values, String[] fields) throws IOException{ Document doc = new Document(); doc.add(new IntField("getAll", 1, IntField.TYPE_STORED))

Lucene Orchard搜索具有相同术语的多个字段

标签： Lucene Content Management System Orchardcms

我正在尝试基于Orchard.search创建一个自定义搜索模块。我已经创建了一个名为keywords的自定义字段，并成功地将其添加到索引中。我想匹配标题、正文或关键字匹配的内容。使用.WithField添加这些字段，或者为与术语匹配的每个字段传递字段字符串数组测试，如果任何字段中存在匹配项，我需要这些字段返回内容。下面我列举了我如何使用这两种方法的例子我如何使用搜索生成器的示例： var searchBuilder = Search() .WithField("type", "Cel

从Lucene查询中获取匹配的术语

标签： Lucene

给定一个Lucene搜索查询，如：+（字母：a字母：B字母：C）+（样式：大写），我如何判断这三个字母中的哪一个与任何给定文档实际匹配？我不在乎他们在哪里比赛，也不在乎他们比赛多少次，我只需要知道他们是否匹配其目的是进行初始查询（“A B C”），删除成功匹配的术语（A和B），然后对其余的术语（C）进行进一步处理。您可以对每个术语使用A，并根据它们的名称快速检查每个文档id。尽管示例是C#，但Lucene API非常相似（一些大写/小写的差异）。我认为翻译成java并不难这就是用法 List

elasticsearch 弹性搜索/多词lucene索引？

标签：elasticsearch Lucene search-engine

当我搜索时，比如说汽车引擎这是第一次有任何用户在Elastic search/lucene中搜索这个关键字，搜索引擎是否首先在索引表中搜索单个单词的索引，然后找到交叉点。例如：-假设引擎找到了10 文件的汽车，然后它会搜索引擎说，它得到了5个文件。现在，在5个文档的最小数量的文档中，它将搜索汽车。它找到了2份文件现在搜索引擎将根据以上结果对其进行排名。这就是在索引表中高级别搜索多个单词的方式吗对于将来针对同一关键字的搜索，搜索引擎是否会在索引表中为关键汽车引擎创建新条目？是的，它会根据您的查

如何获取Lucene索引中文档子集的顶级术语？

标签： Lucene

我知道有可能在Lucene索引中获取顶级项，但是有没有一种方法可以基于Lucene索引的子集获取顶级项例如，对于特定日期范围内的文档，索引中最重要的术语是什么？理想情况下，某个地方会有一个实用程序来实现这一点，但我不知道有一个。然而，以一种合理有效的方式“手工”完成这项工作并不难。我假设您已经有了一个Query和/或Filter对象，可以用来定义感兴趣的子集首先，在内存中构建索引子集中所有文档ID的列表。您可以使用IndexSearcher.search（查询、筛选、HitCollector

Lucene 在字段中搜索多个术语

标签： Lucene

我想在Lucene.NET中做一个AND查询，比如“foo和bar”。我有一个WholeIndex字段，它对整个文档进行了索引，我希望Lucene在整个文档中进行搜索。到目前为止，这很容易，但有一个限制我希望“foo”和“bar”这两个术语在同一个字段中有没有一种简单的方法可以做到这一点，而无需查询字段的完整列表的索引并在每个字段中进行搜索编辑：我想知道的是，是否有办法让Lucene在每个字段中执行搜索，而不必知道索引中的所有字段。自动搜索以下内容的方法： “field1:（+foo+b

如何在lucene中对相同的分数应用默认排序？

标签： Lucene Sorting

你好例如，如果我有包含以下字段的文档 Person_name - Birthday Jordan - 2009-06-15 Marc - 2009-01-01 Marcos - 2009-01-01 Marcissh_something_something - 2009-06-15 Marcos - 2009-12-31 在搜索人名时，我得到了以下分数（这里的分数是假设的）我如何检索结果，使结果首先按相关性排序，然后再假定相同的相关性（分数）按生日排序，这样结果是 Person_name

Lucene Katta索引的用户界面

标签： Lucene katta

我正在为Katta Index开发一个用户界面。为此，我需要找到索引字段的名称（如果可能的话，还有它的数据类型，它是如何被索引的，普通字符串、浮点、Int或long等等），以及索引包含的文档数。。。。 --提前感谢根据 …Katta索引基本上就是一个包含Lucene索引子文件夹的文件夹因此，我将尝试使用查看索引结构。我看到这个建议也出现在下面。根据 …Katta索引基本上就是一个包含Lucene索引子文件夹的文件夹因此，我将尝试使用查看索引结构。我看到这个建议也出现在下面

Lucene Katta执行错误

标签： Lucene katta

嗨，我试过了 bin/katta搜索索引“查询” 上面的一个很好用 bin/katta搜索索引“Query”100 这也很好用我写一个程序 ILuceneClient=新LuceneClient（）； client.count（..）//工作正常但下面的一个是抛出异常 Hits Hits=client.search（查询，新字符串[]{u kattaIndexName}） ============================================================

solr-lucene中的索引

标签： Lucene Indexing Solr search-engine

我有一个网站，用户可以在其中发布一些问题，所以我在mysql中有一个这样的表问题id、用户id、标记、视图、创建日期我想要的是能够执行搜索，根据这些搜索返回问题\u ID 标签然后按顺序订购观点日期（如最新的，或本周，月）或搜索指定的用户，然后再次返回问题ID 按视图和日期排序就索引而言，我应该以什么方式将所有内容都纳入solr？我需要索引标签、视图、日期吗？如果使用lucene/solr对您有好处，我应该索引什么以获得最佳性能？想想看。我不想被误解，但如果你想在一列用户

Lucene Elasticsearch始终返回“；缺少映射类型"；

标签： Lucene elasticsearch

为了使用elasticsearch查找部分单词，我遵循此处给出的建议：我创建了一个简单的bash脚本，尝试运行以下版本： curl -XDELETE 10.160.86.134:9200/products curl -XPOST 10.160.86.134:9200/products -d '{ "index": { "number_of_shards": 1, "analysis": { "filter": { "mynGram" : {

Lucene.net-需要在索引中找到类似的短语

标签： Lucene full-text-searchlucene.net

对不起，我的英语不好，我读得比写得好；）我在一个应用程序中实现了lucene.net，在这个应用程序中，iam从excel表格中以文本形式提取单元格，并将其写入索引。然后，我用包含大约250个字母的短语搜索索引，并将结果写在应用程序中。如果词组与索引中的词组完全相同，则此功能现在非常有效。我现在的问题是：如果有一些字母被更改，是否有机会找到结果？然而，如果有人只删除句子中的一个单词，我必须找到答案我正在使用Apache Lucene.Net-2.9.4和一些重要信息： //使用的分析器和In

Lucene：检索某个元组的分数？

标签： Lucene

通常在使用Lucene时，您会设置一个搜索查询，Lucene会给您一些结果，您可以在这些结果中收到每个文档的分数在我的情况下，我想更改此过程：我有一个数据库的元组，希望将其传递给Lucene，以便在Lucene索引中接收该元组的分数。这可能吗？有人知道怎么做吗？；）编辑：当然我想要我的元组相对于某个搜索查询的分数…我想你的元组映射到Lucene索引中的一个文档。文档本身没有与之关联的分数；它只针对特定查询进行评分。您希望如何准确地编码元组的分数？作为文档增强，或者可能是字段增强的叠加（我假

Lucene 使用elasticsearch在数组对象类型中进行精确搜索

标签： Lucene elasticsearch

我正在寻找一种在弹性搜索中进行精确数组匹配的方法。假设这些是我的文件： {"id": 1, "categories" : ["c", "d"]} {"id": 2, "categories" : ["b", "c", "d"]} {"id": 3, "categories" : ["c", "d", "e"]} {"id": 4, "categories" : ["d"]} {"id": 5, "categories" : ["c", "d"]} 是否有一种方法可以搜索所有类别为“c”和“d

LUCENE标准分析仪连字符考虑

标签： Lucene

在使用lucene标准分析器为我的文档编制索引时，我遇到了一个问题例如：我的文件上有一个“瘟疫”字。。。在这里，这个分析器将其索引为“plag”和“iarism”。但我想要“剽窃”。我要做什么才能得到一个完整的单词？StandardAnalyzer将tokanization委托给StandardTokenizer。您可以创建自己的托卡尼装置来满足您的确切需求（您可以基于StandardTokenizer）或者，如果您愿意，您可以使用相关的正则表达式对String.replace（）进行恶

Lucene 这个ElasticSearch查询的排名背后的原因是什么？

标签： Lucene Indexing elasticsearch

我有两份文件： { id: 7, title: 'Wet', description: 'asdfasdfasdf' } { id: 6 title: 'Wet wet', description: 'asdfasdfasdf' } 除了第二个文档中的额外单词外，它们几乎相同我的问题是： var qobject = { query:{ custom_score:{ que

使用Lucene Arabic Analyzer索引阿拉伯文本文件集合

标签： Lucene arabic

我正在尝试使用Lucene为一组阿拉伯语文件编制索引。我可以用StandardAnalyzer处理英文文件，但对于阿拉伯语文件，我不知道如何使用ArabicAnalyzer。是否有人可以帮助您了解一些示例或代码？您必须检查contrib analyzers库：

Lucene：快速（呃）批量获取文档？

标签： Lucene search-engineaggregatebulk

作为实验的一部分，我尝试在Lucene上构建一些实时聚合。文档的值存储在索引中。这对于多达10K的文档非常有效对于较大数量的文档，这会变得有点慢。我假设在获取大量文档方面没有太多投资，因为这种做法违背了搜索引擎的目的然而，能够做到这一点是很酷的。所以，基本上我的问题是：我该怎么做才能更快地从Lucene获取文档？还是有更聪明的方法我已经只检索了需要的字段 [编辑] 索引非常大，大于50GB。这不适合内存。字段的数量不同，我有几种类型的文档。聚合主要发生在固定的文档类型上；但是没有办法预先知

Lucene ElasticSearch:意外启动同一服务器中的2个实例

标签： Lucene elasticsearch

所以我意外地在同一台机器上启动了两个ElasticSearch实例。一个端口为9200，另一个端口为9201。这意味着有2个集群节点，每个节点都有相同的名称，每个节点都有1/2的总碎片用于每个索引如果我杀死其中一个实例，我现在会得到一个实例拥有1/2的碎片如何解决此问题？我只想有一个包含所有碎片的实例（就像以前一样）所以。。。有一个干净的方法来解决这个问题。尽管我必须说ElasticSearch文档非常混乱（所有这些流行词，如cluster和zen discovery，都让我感到困惑！） (

阿拉伯语Lucene 4.7中的词干和停止词删除

标签： Lucene stop-wordsstemming

请帮助我如何使用Lucene的词干分析器并停止阿拉伯语的单词删除另外，我想知道这两个方面：使用我自己的停止语列表使用Lucene列表先谢谢你更新：我写了这段代码： DocumentReader documentReader = new DocumentReader(filePath); ArrayList<String> stopWordsList = new ArrayList(Arrays.asList(documentReader.readFil

Lucene 如何在elasticsearch中使用查询字符串语法搜索这组字段

标签： Lucene elasticsearch

可能是我创建的索引错误，但我有一个包含变量字段名的lead索引，需要搜索。我创建了一个名为fields的子对象，其中包含名称和值。样本： [ { "name": "first_name", "value": "XXX" }, { "name": "last_name", "value": "XXX" }, { "name": "email", "value": "X0@yahoo.com" }, { "name"

elasticsearch Elasticsearch-在过滤器中组合查询字符串和布尔查询

标签：elasticsearch Lucene query-stringbooleanquery

是否可以在过滤器查询中组合查询\u字符串和布尔查询例如— { "filter": { "query_string": { "query": "field:text" } }, "bool": { "should": { "match": { "field": "text" } } } } bool用于将各种查询合并到一个bool查询中。您可以使用bool以这种方式组合多个查询- { "q

（纯）Lucene：计算longfield中有时间戳的文档，按年份分组

标签： Lucene rangefacetfaceted-search

我的文件结构是： [文本：TextField，日期：LongField] 我正在根据dateTime字段的精度级别，对我的文档进行“统计”查询。这意味着计算按LongField日期分组的文档，忽略日期右侧的一些字节对于给定的精度，我要查找多少文档与此精度的每个不同值相匹配假设精度“年”按“日期/10000”分组使用以下数据： {text:"text1",dateTime:(some timestamp where year is 2015 like 20150000)} {text:"te

Lucene查询结果：获取查询找到的返回文档中的单词

标签： Lucene full-text-search

为了在Lucene查询返回的文档中显示突出显示的匹配词，Lucene搜索结果可能包含用于将文档作为匹配我的请求返回的词例如： Lucene查询：“狗猫” 结果：[“狗很好”，“狗和猫是朋友”] 如何通过Lucene实现这一点？我无法手动处理cats或dogs或请求词和返回词之间的任何差异。使用Lucene的。大概是这样的： //默认情况下，此格式化程序将使用包装突出显示，但这是可配置的。 Formatter Formatter=新的SimpleHTMLFormatter（）； QueryS

正在为检索到的文档的一部分获取Lucene分数

标签： Lucene

我有很多wiki页面，我想训练一个分类器，看看是否有可能通过一些功能确定搜索的重点位置，包括段落的位置和段落的lucene分数。我试着把每一段都当作一个文档，这样我就可以得到每一段的lucene分数。但是，这会有从太少的页面检索所有段落的风险。这是一种将页面用作存储文档，然后获取lucene分数的方法吗？不是针对页面，而是针对页面的一部分？非常感谢澄清：我首先要做的是：文档：wiki页面 Doc.field:wiki页面id Doc.field:wiki页面标题 Doc.field:wik

OrientDB：如何搜索手动lucene索引中的指定字段？

标签： Lucene Orientdb

我正在使用OrientDB2.1.8社区和内置的Lucene索引。如何定义在手动索引中搜索时要使用的字段？即，以文档第页所述的方式使用手动索引下面是一个简短的例子来说明我正在尝试做什么 CREATE VERTEX CONTENT {"name": "squirrel"} // rid = #9:2 CREATE VERTEX CONTENT {"name": "scrat", "description": "Scrat was an acorn-obsessed saber-toothed

如何使用lucene进行搜索

标签： Lucene

我想找到这个词“且试天下" .这是一个中文单词。所以关键是“且试天下" 但是当我搜索时，结果包含三个这样的文档且试天下且共从容梦之无游天下录实际上，我只想得到第一个结果。只有第一个结果与键相同。第二个和第三个结果只是在键中包含一些单词这是我的代码，我使用lucene 5.5 public void doSearch() throws Exception { String key = "且试天下"; Path path = FileSystems.get

Lucene 在Cloudant上为每个用户搜索一个文档

标签： Lucene cloudant

我有一个包含多个文档的数据库。每个单据都有一个用户id字段。假设这些文档属于两个用户：1和2。我只想为每个用户提取一份最新的文档。我应该如何实现搜索索引？我现在可以使用：user\u id:1获取用户的所有文档但是如何在一次查询中将每个用户的文档编号限制为一个呢？假设每个文档都有日期属性，则可以按如下方式完成此操作：创建以下索引： { "index": { "fields": [ {"user_id":"desc"}, {"date

elasticsearch ElasticSearch能否纯粹用于聚合？

标签：elasticsearch Lucene

在我当前的用例中，我使用ElasticSearch作为文档存储，在此基础上我构建了一个分面搜索特性缔约国声明如下：排序、聚合和访问脚本中的字段值需要不同的数据访问模式文档值是在文档索引时构建的磁盘上的数据结构，这使得这种数据访问模式成为可能。它们存储与_源相同的值，但以面向列的方式存储，这对于排序和聚合更为有效这是否意味着聚合不依赖于索引？如果是，是否建议通过设置{“index”：“no”}来防止字段被全部索引这是一个很小的偏差，但设置已启用从何而来？它与索引有什么不同更广泛地说，如

Lucene &引用；锁定获取超时异常“；没有「；write.lock"；文件

标签： Lucene lucene.net

我在索引文件夹完全为空的情况下获得Lock-get超时异常在我尝试使用以下代码创建索引时引发此异常： IndexWriter writer = new IndexWriter(directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED) 我如何才能解决此错误？有几个可能的原因：您的目录没有足够的访问权限。要解决此问题，请右键单击目录>属性>安全>确保您的进程IIS\U IUSRS具有权限另一个进程正在同时使用该目录。使用Lock H

elasticsearch elasticsearch中的索引类型

标签：elasticsearch Lucene

我试图理解并有效地使用elasticsearch中可用的索引类型。然而，我仍然不清楚_类型的元字段在存储/实现方面与索引的任何常规字段有何区别。我明白例如，如果我有100万条记录（比如帖子），每个帖子都有一个创建日期。如果我的索引类型之一是creation_date本身（导致约100万种类型），情况会如何？我不认为这会影响Lucene存储文档的方式，是吗？如果我使用creation\u date作为索引类型，对同名类型（如“post”）使用索引类型，我的elasticsearch查询性能会

elasticsearch ElasticSearch：删除然后添加文档

标签：elasticsearch Lucene

我在确保索引未损坏方面遇到问题。因此，我执行添加和索引操作的方式确保了索引不会与我的数据库失步：从索引中获取文档版本从数据库获取文档索引文件这意味着索引请求以什么顺序出现并不重要，我的索引始终与数据库同步。问题来自Delete操作。可能存在这样的情况：Add请求发生在Delete之后，文档被重新添加，即使它不应该被添加。我知道Lucene不会马上删除文档。有没有办法知道已删除文档的ID？或者，检查已删除文档的版本？如果是，文档在删除请求后在索引中存在多长时间？这可能会起作用： 1.删除文

在GraphDB的Lucene连接器中使用通配符

标签： Lucene wildcardgraphdb

我用的是GraphDB的。我为我的三重存储中的实体代码构建索引my_index，我想使用这样的索引进行子字符串匹配示例。实体代码： FooBar FooBaz BazFoo Lucene连接器： PREFIX :<http://www.ontotext.com/connectors/lucene#> PREFIX inst:<http://www.ontotext.com/connectors/lucene/instance#> INSERT DATA {

elasticsearch Elasticsearch从快照还原单个索引

标签：elasticsearch Lucene elastic-cloud

在我去做一些愚蠢的事情之前，我可以与其他Elastic用户再次检查一下：我的集群有2000多个索引。我只弄糟了其中一个，需要从快照恢复它。如果我选择了要恢复的一个索引，我只想确保我不会得到一个只包含该索引的集群，而缺少另一个索引我会想象相反的情况会发生，1999+将保持不变，只是那一个将被恢复，但我需要确定在我开始之前我正在使用弹性云，如果它对事物有任何影响。根据默认情况下，快照中的所有索引都会恢复，并且集群状态未恢复。可以选择应该已还原，并允许全局群集状态从通过使用索引进行恢复，

elasticsearch 如何在不影响性能、可伸缩性的情况下获得更好的相关性，并避免Elasticsearch的分片效应

标签：elasticsearch Lucene shardingtf-idfrelevance

假设我有一个大索引，由5亿个文档组成，默认情况下，ES创建5个主碎片，原因如下，我也使用相同的设置性能：-在文档数较少（在我的使用案例中为1亿）的切分中搜索的时间将少于仅在一个文档数巨大（5亿）的切分中搜索的时间。此外，还允许跨碎片分发和并行化操作水平可伸缩性（HS）：-水平分割/缩放内容卷但是当我们默认搜索时，它只会转到1个碎片并给出结果。在这种情况下，相关性是不准确的（因为idf会受到严重影响），而且如果我的匹配文档位于另一个碎片上，它甚至可能不会给出任何结果。它被称为切分效应以上问

Lucene 如何排除集合中具有（或不具有）特定值的结果？

标签： Lucene full-text-searchhibernate-search

假设我有一个或多或少像这样的实体（伪代码）：我一直在尝试使用.bool（）.must（）/should（）/must（）.not（）编写替代查询，但没有太多成功。尤其是当联系人有XYZ地址，但其他联系人也有XYZ地址时。我开始觉得这是一个合乎逻辑的问题，因为我正在查看一个列表，但是如果你知道我做错了什么，请告诉我。如果你在文档中嵌入一个地址列表，并希望对每个地址应用条件，而不是将所有地址合并在一起，您需要将每个对象作为嵌套文档进行索引，然后使用“嵌套”谓词嵌套文档的概念存在于Hiberna

elasticsearch Elasticsearch 7.10如何为文档中较早出现的术语赋予更多权重

标签：elasticsearch Lucene

假设我们在特定字段上对术语“cosmopolitan”发出一个查询（确切类型不相关），并假设结果集包含多个文档，每个文档都正好包含“cosmopolitan”的“k”实例通过任何适用的机制（提升、加权、排序等），我希望返回结果集，以便考虑文档中“cosmopolitan”的位置，即如果cosmopolitan的平均位置较低（接近文档的开头），则其排名/得分较高我研究了不同类型的查询和脚本，但似乎找不到适用于此的内容，这似乎很奇怪，因为对于许多领域来说，术语位置可能非常重要。如果我们讨论的是任

Lucene搜索（如何查询？）

标签： Lucene

我正在尝试使用Lucene全文搜索。我不知道如何使用单词形式进行索引/搜索。首先，我不想一个人写。如果我将StandardAnalyzer与QueryParser一起使用，我可以找到如下文本：一些测试文本通过像“test~”这样的查询，“testing”，但是如果我试图通过像“tested”这样的查询来查找它，那么它是不起作用的所以，请告诉我如何使它正确谢谢你的建议确保使用luke进行测试查询等：它将重写和解压您的查询，以便您可以调试情况

Lucene-计分和有效载荷

标签： Lucene

我们有一个应用程序，其中文档中的每个术语位置都与“引擎分数”关联。然后，术语查询应根据文档中术语的“引擎分数”之和评分，而不是根据术语频率评分。例如，平均发动机分数为100的术语频率为5，应等同于发动机分数为500的术语频率为1 我明白，如果我在有效载荷中保留每个位置的引擎分数，我将能够结合使用scorePayload和PayloadFunction的摘要版本来获得文档中某个术语的引擎分数总和，从而能够实现我的目标此解决方案存在两个问题：即使是最简单的术语查询也应该扫描positions

如何在ApacheLucene搜索中搜索非索引字段

标签： Lucene

我有一个索引了5列的表&还有5列没有索引。是否可以使用lucene query使用非索引列进行搜索？否，您只能搜索已索引的数据

Lucene 基于ElasticSearch的精确文档匹配

标签： Lucene elasticsearch

我需要精确地查询一组“短文档”。例如：文件： {“name”：“johndoe”，“alt”：“johnw Doe”} {“姓名”：“我的朋友约翰·多伊”，“alt”：“约翰·多伊”} {“name”：“John”，“alt”：“Susy”} {“name”：“Jack”，“alt”：“John Doe”} 预期成果：如果我搜索“John Doe”，我希望1的分数比2和4的分数大得多如果我搜索“John Doé”，同上如果我搜索“John”，我想得到3（精确匹配比名称和alt重复要好）

elasticsearch elasticsearch/lucene是否会对fieldcache中缺少的值施加内存开销？

标签：elasticsearch Lucene

这个问题主要针对Elasticsearch，但我相信答案将基于潜在的Lucene语义我正在考虑在同一个索引中使用多种类型。许多字段将是可排序的，并且许多字段将仅由一种特定类型使用。即：字段将是稀疏的，平均覆盖率为10% 由于排序将所有文档的值保留在内存中（与类型有关），我想知道，在Elasticsearch官方博客上最近发表的一篇题为，作者解决了一个常见的问题，当涉及到选择是否要使用几个索引或几种类型对数据建模时一个事实是Lucene指数不喜欢稀疏性。因此，作者说一种类型中存在的字段也将消

使用GraphDB'；s Lucene连接器，如何直接访问Lucene而不是通过SPARQL？

标签： Lucene graphdb

我一直在使用GraphDB，通过SPARQL查询对大量数据执行全文搜索。我让这个例子起作用了。除了通过SPARQL之外，还有其他方法读取/写入Lucene的数据吗？对于许多大型文档，我担心通过SPARQL加载它们可能效率低下，而不是直接向Lucene进行某种批量加载有没有办法更直接地访问Lucene而不是通过SPARQL？您有两种选择：切换到GraphDB SOLR或Elasticsearch连接器-这两个服务都公开其他客户端可以访问的服务器API。不幸的是，此功能仅在GraphDB En