Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

在Lucene.net中使用日期范围

标签： Lucene lucene.net

我了解Lucene.net如何为文本索引工作。我是否能够根据给定的日期范围高效地搜索文档？或者Lucene.net会使用文本匹配来匹配日期吗？Lucene.net会使用文本匹配，因此在添加到索引之前，您需要正确设置日期的格式： public static string Serialize(DateTime dateTime) { return dateTime.ToString("yyyyMMddHHmmss", CultureInfo.InvariantCult

带lucene 3.1的KWIC

标签： Lucene lucene-highlighter

我研究Lucene，有些事情我还不明白。首先，我使用lucene的最新版本3.1 然后一切都很好，但我一直未能使用荧光灯和碎片有人知道如何在上一版本中使用它吗感谢您并为我的英语感到抱歉…我们正在使用FastVectorHighlighter进行高亮显示。您可以查看GitHub上的实现：

Lucene 组织一个Lunene目录

标签： Lucene lucene.net

我有一套唱片。每个记录可以有多个技能和一个状态所以你可能有a、b、c技能的记录，还有维多利亚州的记录我需要能够搜索任何记录，说技能a在维多利亚或技能a和c在维多利亚目录我很难创建一个有效的目录，使我能够以我想要的方式搜索起初，我创建了一个目录，其中包含skills:abc state:vic 然后我尝试了技能：a、b、c状态：vic 但是搜索这些并没有给我正确的结果。事实上，当我有一个疑问 skills:a,b AND state:vic, skills: a OR b AND stat

Lucene中的倒排索引

标签： Lucene inverted-index

我想知道Lucene中哪个类生成反向索引感谢An是使用的数据文件的结构。实际上并没有任何特殊的类使它反转。包中的类管理最终使数据结构成为反向索引的文件。让我们来分析一下lucene的一些基本原理索引包含一系列文档文档是一系列字段字段是术语的命名序列术语是字符串所以，当字段添加到文档中时，如果它们被反转，那么它们将被索引，请注意，字段可以被索引和存储因此，反转（索引）操作发生在字段级别，yeah是一个类，我认为反转就是在这个类中发生的反转索引是在名为FreqProxTermsWr

Lucene Solr dataimporter.functions.formatDate获取当前日期

标签： Lucene Solr

我使用的是Solr3.2版本。我需要以以下格式获取当前日期：yyyyMMdd，然后在增量查询中使用该结果我试过使用这个wiki 但我有一个例外：出现可丢弃：java.lang.NullPointerException 位于org.apache.solr.handler.dataimport.EvaluatorBag$4.evaluate（EvaluatorBag.java:146）位于org.apache.solr.handler.dataimport.EvaluatorBag$5.ge

Lucene：如何将StandardTokenizer与我自己的Tokenizer结合使用

标签： Lucene tokenize

我正在构建一个标记器，它将获取文本并在空白处拆分，并添加句子和段落标记（），但除了运行这个，我还希望能够运行StandardTokenizer（和StandardFilter），以便我能够更智能地标记单词。这里我有一个类似的例子如果我先运行StandardTokenizer（可能还有StandardFilter），那么我会得到更智能的标记，但我没有任何标点符号/空格/大写字母作为句子/段落检测的基础如果我首先使用我的标记器，那么我能够为句子和段落包含必要的标记，但我无法从StandardT

Lucene 如何为WEB TREC集合编制索引？

标签： Lucene information-retrieval

我通过自己下载和解析html页面构建了一个WEB TREC集合。每个TREC文件都包含一个类别字段。如何使用Lucene构建索引，以便在该集合中执行搜索？其思想是，这种搜索可以返回类别，而不是将文档作为结果返回谢谢大家! 这应该是一项相对简单的任务，因为它们是HTML格式的。因此，您可以在Lucene中对它们进行索引（基于Java的伪代码） GetCategoryName=应该返回类别字符串，并返回相应HTML文件的内容GetContents（…）。从标记中解析HTML内容是一个好主意。有几种

在Lucene中，索引文件用于提供搜索查询的顺序是什么？

标签： Lucene Indexing

对Lucene进行搜索查询时，访问哪些文件（如中所述）以及访问顺序如何？例如，一旦查询被标记为术语列表，使用哪个文件将这些术语转换为命中列表（文档ID）？获得文档ID后，如何查找相关文档？典型的搜索需要以下文件中的信息：术语词典以获取有关查询中术语的信息获取与查询匹配的文档ID的频率已删除的文档文件用于跳过已删除的文档规范文件用于对文档进行评分如果查询需要处理位置（例如短语查询），那么也将读取位置文件存储字段以获取热门搜索的摘要结果用于突出显示存储字段内容的术语向量文件的使用

Lucene Luke我的字段值在哪里？

标签： Lucene luke

在过去的三年里，我每年使用卢克四次。我只在需要的时候才打开它。我一直不明白的一个概念是，为什么只显示某些字段的值。我可以查询这些“空”字段中的预期值并获得预期结果，但Luke从不显示这些值。我想我遗漏了一些基本的和明显的东西，但对我来说并不明显示例搜索选项卡：示例文档选项卡：当程序创建Lucene文档时，它可能会告诉Lucene是否存储字段的值。例如，请参见构造函数的存储的参数。如果未存储该值，则可以对其进行搜索，但该值的原始字节不会保存在索引中，因为搜索既不需要也不使用这些字节例如，

ApacheLucene用于静态网站

标签： Lucene search-enginecustom-search-provider

可以将ApacheLucene用于静态网站吗？如果没有，除了Google CSE还有什么其他选择？如果可以在服务器上执行Lucene搜索代码，在静态网站上使用Lucene是完全合理的。如果您不能执行任何服务器代码，据我所知，您需要查找Lucene以外的其他地方。请添加更多详细信息，说明您希望做的事情。它应该创建和维护网站索引，并在同一网站上提供搜索结果。就像谷歌自定义搜索一样。我可以在谷歌appengine上托管代码并在其他服务器上运行网站吗？如果您能够提供指向实现相同目标的说明的链接，那将是

使用Lucene搜索href值（在Umbraco中检查）？

标签： Lucene umbraco7examine

我想用lucene/examine搜索href值-更精确地说是“locallink”值。检查是开箱即用的标准配置我有以下代码片段，它不返回任何结果 string searchQuery = "localLink:" + id; UmbracoHelper helper = new UmbracoHelper(UmbracoContext.Current); foreach (var result in helper.Search(searchQuery, false)) { // D

elasticsearch 用于Elasticsearch的只读群集

标签：elasticsearch Lucene

有没有办法在Elasticsearch中创建只读集群我有一个非常令人兴奋的索引，我想将搜索或其他活动从中分离出来。我搜索索引别名、部落节点…但我想不出主意。查看它在哪里显示Index.blocks.read\u：设置为true以使索引只读，false以允许写入和元数据更改。我认为此设置适用于不再写入的索引。我有一个索引需要索引和读取。我不明白。您希望它是只读的，但允许索引吗？我想要某种主/从复制，所以一个用于索引，另一个用于读取。

不同语言的Lucene配置

标签： Lucene

我很想学习lucene如何配置不同的语言。有没有办法知道标记器是如何配置的，哪些字符被认为是单词的一部分，哪些不属于单词？默认情况下，Lucene没有配置为处理语言。这完全取决于您，我的建议是在不同的文档字段中索引几种语言，每种语言对应一种语言，并每次使用适当的分析器所以Lucene对此没有默认配置，但如果您使用的是Elasticsearch或Solr，可能会有。你是在用Lucene吗关于，我正在使用lucene，但手头的工作是压缩字符串。由于每秒可以处理大约1亿个字符，而core和Java

elasticsearch Kibana discover：搜索特殊字符：'@'；

标签：elasticsearch Lucene Kibana kibana-4

我想用kibana显示elasticsearch数据库中包含特殊字符@的所有条目。更具体地说，我在字段名中搜索它我尝试了以下方法： *@ *\@ *"\@"* friendly_name:*@ friendly_name:*\@ friendly_name:*"\@"* 这些都不起作用，我还发现了如下页面：它告诉我们用“\”转义特殊字符，这显然在这里不起作用。我将尝试以下方法： friendly_name:"@" 让我知道它是否有效根据ApacheLucene文档，查询语法@不是特殊

elasticsearch 弹性搜索中模糊与匹配的区别

标签：elasticsearch Lucene

我想知道Elasticsearch中搜索类型的区别：模糊和匹配我指的是每一种方法的优点和缺点，如果有谁更好的话提前感谢。模糊可以帮助您在一个术语中搜索，匹配将匹配整个术语举个例子： POST index1/test1 { "field1": "this is a full on sentence" } Fuzzy将匹配术语的一部分（每个单词都是术语）术语匹配将找不到记录，因为“ull”不是完整术语 GET index1/test1/_search { "query": {

Lucene Field.Store.YES与Field.Store.NO

标签： Lucene

请有人解释一下在什么情况下我可以使用Field.Store.NO而不是Field.Store.YES？我对Lucene非常陌生。我正在尝试创建一个文档。根据我的基本知识，我正在做 doc.add(new StringField(fieldNameA,fieldValueA,Field.Store.YES)); doc.add(new TextField(fieldNameB,fieldValueB,Field.Store.YES)); 有两种基本方法可以将文档写入Lucene 索引-对字段进

elasticsearch Elasticsearch使用不同的查询分析器进行多匹配跨字段查询

标签：elasticsearch Lucene

用例：我有一批公司。每家公司都有城市和国家的信息。我希望能够进行文本搜索，以找到例如泰国曼谷的公司。所有信息都必须可以用不同的语言进行搜索。例子：在巴西，大多数人在英文版中提到曼谷，而不是巴西版。在这种情况下，如果一个人想要搜索曼谷-泰国的公司，搜索语句将是曼谷泰兰迪亚。由于这个要求，我必须能够搜索不同的语言领域检索结果问题：如果发送查询时未指定analyzer Elasticsearch，请使用在每个字段配置上指定的search_analyzer。问题是它破坏了跨字段查询的目的。

Lucene Hibernate Search | ngram分析器，具有minGramSize 1

标签： Lucene hibernate-searchn-gramanalyzer

我的Hibernate搜索分析器配置有一些问题。我的一个索引实体（“医院”）有一个字符串字段（“名称”），可以包含长度为1-40的值。我希望能够通过搜索一个字符来找到实体（因为医院可能只有一个字符名）如果添加名为“我的测试医院”的医院，Lucene索引如下所示： 1 name al 1 name e 1 name es 1 name est 1 name h 1 name ho 1 name hos 1 name

elasticsearch Ngram的弹性搜索索引？

标签：elasticsearch Lucene n-gram

假设我有一句话这是一个新城市弹性搜索是否为单词的所有可能排列/组合创建索引。例如，对于“城市”一词，它是否会创建索引“it”、“ty”、“ity”、“cit”等这些索引是在文档存储时还是在运行时创建的这些索引保存在内存中还是数据库中那要看你的决定了。默认情况下，Elasticsearch使用Unicode文本分割算法定义的将文本划分为单词边界上的术语。这意味着您的句子将标记为这是一个新的城市。如果愿意，可以创建自定义标记器当您将文档放入Elasticsearch时，它们将被编入索引数

elasticsearch 允许在elasticsearch中标记基于hypen的单词

标签：elasticsearch Lucene full-text-search

我有一个字段name的以下映射，该字段将保存电子商务的产品名称 'properties': { 'name': { 'type': 'text', 'analyzer': 'standard', 'fields': { 'english': { 'type': 'text', 'analyzer': 'english

elasticsearch 如何在elasticsearch中映射人的年龄，使其保持真实

标签：elasticsearch Lucene Mapping

我想知道是否有一种特殊的方法将一个人的出生日期映射到一个年龄。天真的方法是对一个人的当前年龄进行索引。但明年的年龄将有所不同。然后我必须更新个人文档我想知道是否有更复杂的方法来解决这个问题您需要为此人的出生日期编制索引，然后您可以使用一个将计算此人到目前为止的年龄的例如，假设您有这样一个person文档： { "first_name": "John", "last_name": "Doe", "birth_date": "1984-10-12T00:00:00.000Z" }

elasticsearch 在弹性搜索中，是否有一种方法可以按字段a对前N个项目进行排序，然后按字段B进行排序

标签：elasticsearch Lucene

我的要求是从elasticsearch中获取列表，以这样的方式，前N个文档表示前5个应该是按字段a排序的结果，而N之后的文档（现在不包括前N个）应该按字段B排序。基本上，我希望在一个查询中组合两个查询，以避免分页问题

Lucene Nutch'；什么是插件系统？

标签： Lucene nutch

我不熟悉Nutch，但我知道Nutch使用Lucene进行索引，Lucene只理解文本格式 Nutch有许多插件，用于对特定格式的文档进行爬网我的疑问是：Nutch插件系统究竟是如何实现的我看到了团队wiki页面的我想要一些信息，比如Nutch是如何与Lucene一起工作的。Lucene所做的就是提供一种方法，将“”添加到结构化索引中，并针对该索引执行查询 Nutch crawler（我想这就是你所说的Nutch）只是提供了一种简单的方法来获取非结构化数据（即网站）并将其推送到索引中。就像

Lucene 休眠搜索分页+；FullTextSearch+；标准

标签： Lucene hibernate-search

我正在尝试使用一些条件进行搜索 FullTextQuery fullTextQuery = fullTextSession.createFullTextQuery(finalQuery, KnowledgeBaseSolution.class).setCriteriaQuery(criteria); 然后翻页 //Gives me around 700 results result.setResultCount(fullTextQuery.getResultSize()); //Some pa

Lucene HTMLFormatter跳过最后一个字符

标签： Lucene lucene.nethighlighter.net

我有这个简单的Lucene搜索代码（修改自）类程序 { 静态void Main（字符串[]参数） { StandardAnalyzer=新的StandardAnalyzer（）；目录索引=新的RAMDirectory（）； IndexWriter w=新的IndexWriter（索引、分析器、真、， IndexWriter.MaxFieldLength.UNLIMITED）； addDoc（w，“表1内容”）； addDoc（w，“表2”）； addDoc（w，“内容”）； addDoc（w

使用Lucene为单个文本文档中的列编制索引

标签： Lucene

大家好，我计划为单个文档编制索引，该文档包含以下选项卡分隔的数据： Name ID email address 因此，当有人搜索“姓名”时，你应该得到他的ID、电子邮件和地址作为回应。其他专栏也是如此。我打算用Lucene来做这个。但从我读到的关于Lucene的一点资料来看，它谈到了为多个文本文档编制索引。有人可以指导我通过一个教程或链接，我可以建立一个索引与我的要求谢谢：）您只需要将每一行都变成一个“文档” 不过，这听起来并不是lucene的好用途—

Lucene 我可以自定义Elastic Search以使用我自己的停止词列表吗？

标签： Lucene stop-wordselasticsearch

具体来说，我想索引所有内容（例如who），没有停止词列表。弹性搜索是否足够灵活且易于更改？是的，您可以使用弹性搜索的内部配置YAML文件进行更改有关如何更改analyzer设置的信息，请参阅。默认情况下，analyzer elasticsearch使用的是带有默认Lucene English stopwords的。通过向elasticsearch.yml文件添加以下内容，我已将elasticsearch配置为使用相同的分析器，但不使用stopwords # Index Settings ind

在Lucene.Net中标记hashtags

标签： Lucene lucene.netanalyzer

我正在使用Lucene.Net（2.9版）。我想保留tweet帖子“@name”或“#Note” 使用Lucene AnalyzerViewer工具(http://www.codeproject.com/KB/cs/lucene_analysis.aspx?msg=3326095#xx3326095xx)查看不同分析器生成的令牌例如，下面这段文字产生的代币：“注：锻炼，活得更长。” 空白分析器：[注意：][练习，][生存][更久。] 标准分析仪：[注][练习][寿命][更长] 简单分析器：[

Lucene 解决方案：在多个字段中搜索，但如果找到匹配的文档，则停止搜索

标签： Lucene Solr

我想在Solr中搜索多个字段。（我知道复制字段的概念，也知道（e）Demax搜索处理程序。）因此，我有一个字段的有序列表，我希望搜索这些术语。 1.）SKU 2）姓名 3.）说明 4.）总结等等现在，当查询匹配一个术语时，比如说在SKU字段中，我想要这个匹配项，而不需要在后续字段中进行进一步搜索仅当第一个字段（SKU字段）中根本没有匹配项时，才应使用第二个字段（在本例中为“名称”），依此类推这对Solr有可能吗？我是否必须为此实现自己的Lucene搜索处理程序欢迎任何意见谢谢,

Lucene 带外部数据库的FastVectorhighlighter

标签： Lucene lucene.netfast-vector-highlighter

我正在我的一个项目中使用Lucene.NET2.9。我正在使用Lucene为文档创建索引并搜索这些文档。我文档中的一个字段是文本密集型字段，我已将其存储到我的MS SQL数据库中。所以基本上我通过lucene搜索它的索引，然后从MS SQL数据库中获取完整的文档我面临的问题是，我想在结果中突出显示我的搜索查询词。为此，我使用FastVectorHighlighter。现在，这个特定的荧光灯需要Lucence DocId和field来高亮显示字段。问题是，由于lucene数据库中没有存储这个特定

lucene校勘

标签： Lucene lucene.netcollationicu

我们正在.net上使用lucene，我们需要一种方法来实现“排序规则不可知”的搜索。我不知道这是否是正确的术语，但我们需要的是，如果我有一个名为 [Žuf]我想通过输入[zuf]和其他方向找到他如果用户名是[zuf]并且我输入[Žuf]我仍然想找到他，总有一种手动方法可以将所有字符分条，并在这一点上对索引进行分类，但我更希望这样做更智能有关于这个的消息吗谢谢 almir与一个应用程序相结合，可以满足您的需要。Lucene for Java包含一个完成此任务的过滤器：ICUFoldingFil

是什么导致Lucene.Net无法找到它的一个文件？

标签： Lucene lucene.net

我们在基于Lucene.Net的应用程序上遇到随机、零星的问题。它们看起来像这样： System.IO.FileNotFoundException: Could not find file 'G:\Site\App_Data\Model Index\index\_2y0.fnm'. 这是我们做错事的征兆吗？我们关闭所有读者和所有搜索者。我经常优化。什么会导致这样的事情？我不认为你做错了什么。如果您使用的是非常旧的Lucene.Net版本，如2.0.0.4，升级到2.9.2或更高版本一旦我升级

Lucene CustomScore和所有文档中的最大值

标签： Lucene elasticsearch

大家好，现在我有了custom\u score”\u score+（（parseInt（doc.ad\u when.value）-oldestAd）/doc.ad\u since.value）*2“。可以在自定义分数中使用所有文档中的最大值。我想oldestAd是从所有搜索的数据中得到的。MySql有函数MAX。在MySql中这将很容易例如：在所有文档中，我有一个流行字段，我希望使用所有文档中最大的值来定制分数。可能吗？不幸的是，这只能分两步完成。首先，您需要从列表中检索按ad\u when

如何在lucene 4.0中控制字段索引

标签： Lucene

在Lucene版本3.9之前，我们可以通过使用field.index.NO或field.index.analysed等指定索引字段或不索引字段。但是在Lucene 4.0中没有可用的构造函数，我们可以在其中定义此构造函数。我们如何在此版本中控制索引我的意思是，如果我想在索引中存储一个字段“name”，但不想为其编制索引，那么我如何在lucene 4.0中实现这一点？构造函数使用字段。index参数可用，但在4.0中被弃用，不应使用。相反，您应该查看Field的子类来控制字段的索引方式是标准

带评分的Lucene模糊短语搜索方法

标签： Lucene levenshtein-distancefuzzy-search

我的要求是在模糊短语搜索中生成匹配分数。范例 1）输入数据-你好，山姆，你好吗？谢谢，史密斯索引文档-Sam Smith（文档始终为个人/组织名称，输入数据为自由文本数据）在上面的例子中，Sam和Smith都在我的输入数据中找到，但在上下文中他们都是不同的人。如果我的输入数据是“Hello Sam Smith”，那么我应该得到更高分数的相关命中率（同时我希望“Hello Sam John Smith”的分数为OK，以此类推）我在这里使用Lucene进行初级过滤，稍后将使用输入数据对

将完整的动态lucene查询语法传递给QueryParser

标签： Lucene

我只是想知道是否有办法将一个纯动态Lucene语法查询（包括用布尔运算符分隔的字段：值对）传递给QueryParser。查询将在运行时确定（可能使用自定义查询生成器）。由于QueryParser在实例化时需要一个字符串（默认字段名）和一个分析器，所以我不知道如何使用代码如果您能帮上忙，我们将不胜感激。我有点困惑。这听起来像是你在问你是否可以使用QueryParser来完成它的设计目的为了便于解释，分析器会在必要时在文本中查找术语，StandardAnalyzer是一个很好的起点。默认字段只是

使用有效负载和NLP标记进行Lucene搜索

标签： Lucene Nlp opennlp

我已经为文档编制了索引，每个单词都有包含词性（POS）标记的有效负载。我只想搜索那些搜索查询词带有POS标记的文档。例如，“访问谷歌”用谷歌作为名词。它应该只显示以谷歌为名词的文档。编写自定义分析器有帮助吗？当负载在相似类中被访问时，我如何访问该术语？在lucene中进行精确（：google和：'Non'）查询可能很棘手。。。您的查询是什么？您如何将文档写入索引？我建议使用span查询。Span查询可以返回一个Span对象，该对象允许检查每个匹配令牌的有效负载请参阅PayloadTer

Lucene 搜索文件内容

标签： Lucene

好的，我计划在我的内联网上创建一个本地搜索引擎，搜索像xls、xlsx、doc、docx、pdb等文件的内容在互联网上搜索后，我想卢克·卢克尼可以用来做这个。我说得对吗？ Lucene可以集成到网站中吗我有500 Gb左右的文件Lucene能处理这么多文件吗？还有别的选择吗我只知道C和CPP的基础知识。我没有这方面的任何先验知识。我是一个自学成才的人，请给我推荐一本关于Lucene的好书。是的，Lucene可以用于此。但是您需要自己编写一些代码（因为Lucene只是一个库）： -爬行代码

Lucene 查询产生的SOLR“分数”

标签： Lucene solr4

当使用Solr web界面查询我的索引集合时，在我指定fl=*分数后，为了使分数与查询的每个结果相关，我得到的分数都等于1或2，我无法理解。我正在使用SchemaSimilityFactory 为什么它们是整数？他们的意思是什么此外，当我在界面中指定debugQuery复选框时，调试跟踪不包括tf、idf或每个文档中的点击数。我想要一个带有这些值的调试信息。我应该如何解决这些问题？这是因为您正在使用 *:* 如果不进行特定搜索，则无法计算分数，因为所有文档都具有相同的分数，但没有为字段指定值

Lucene 从给定查询中提取关键字

标签： Lucene Nlp search-enginestemmingkeyword-search

我正在实施基于关键字的搜索项目。因此，在处理输入的过程中，程序必须以给定的方式提取关键字：忽略标点符号，即。！？，等忽略有约束力的词语，如and、or、so等。最后也是重要的任务是找到单词的词根，例如communiti或community必须转换为community。我用过，但它不能正常工作你说它不能正常工作是什么意思？Snowball是一种编写词干分析器的语言，因此您必须自己使用它来编写词干分析器。你尝试了什么，你真正需要什么？一些提示：你提到的任务通常被称为1标记化、2停止词删除和

elasticsearch 如何在Elasticsearch中对未分析的字符串执行类似正则表达式的搜索

标签：elasticsearch Lucene

我正在努力找到一种方法，在Elasticsearch中查询是否出现此日志消息： Task my_celery.tasks.abc[d323a875-2a0e-41eb-896b-3f6d5f8aab9b] raised unexpected: NameError("global name 'dfadgsdfgsdfg' is not defined",) 我想检测这些消息，所以查找“任务…引发意外”或“引发意外”都可以，但在Elasticsearch中找不到这样做的方法未分析包含消息的字段，

Lucene 我们可以在语音索引中使用查询吗？

标签： Lucene full-text-search

我已经实现了一个基于lucene的软件来索引超过1000万的人名，这些人名可以用不同的方式书写，比如“Luíz”和“Luis”。索引是使用各个标记的语音值创建的（创建了一个自定义分析器）目前，我正在使用QueryParser查询一个给定的名称，结果很好。但是，在《Lucene in Action》一书中提到，SpanarQuery可以使用标记的接近性来改进我的查询。我对名称的非拼音索引使用了SpanarQuery，结果比QueryParser要好由于我们应该使用用于索引的同一分析器进行查询，

Lucene 为什么在org.apache.jena.query.text中出现错误？

标签： Lucene jena

目前我使用Jena和Lucene进行文本搜索。我对ApacheLucene有一个问题，尤其是在org.Apache.jena.query.text中。我编写了如下导入库： import org.apache.jena.query.text.EntityDefinition; import org.apache.jena.query.text.TextDatasetFactory; import org.apache.jena.query.text.TextIndexConfig; 这三个库表示

elasticsearch 如何在不强制合并的情况下减少ElasticSearch lucene段

标签：elasticsearch Lucene

我们有一个存储150万条记录的集群，总容量为3.5GB。每30分钟更新或创建约2-5k条记录。到目前为止，在对预先存在的数据进行大量索引之后，我们一直在强制合并，将段的数量从30-35减少到1，这大大提高了搜索的性能。几天后，分段的数量通常会上升，并在7或8左右趋于平稳，性能仍然正常问题是我们计划将数据扩展到80GB左右。如果我们这样做，我担心的是在初始质量索引后使用强制合并，该段将大于5GB，此时将不考虑通过ElasticSearch进行自动合并，性能将降低。如果不使用强制合并，虽然我相信段

elasticsearch 使用浮点的弹性搜索

标签：elasticsearch Lucene Kibana

我是新来基巴纳的。我正在“发现”中进行搜索，并在“可视化”中绘制它们。对于任务，我需要过滤掉一个浮点字段。但是，当我在discover中使用浮点进行搜索时，kibana不会返回任何结果例如： my_field: <= 6.66 kibana搜索栏如下图所示：选项栏选项：其他信息：使用查询进行搜索：my_字段：[*至6.66]引发错误： Discover: Can only use prefix queries on keyword and text fields - not

Lucene-逃逸词？

标签： Lucene

我正在和lucene一起搜索一个城市和州的位置，一切都进行得很顺利。当我传递“state:OR”并取消“state:OR”时，查询解析器失败有没有办法告诉搜索者/查询解析器我确实在搜索“或” 谢谢。我相信，如果你在引号中加上或加上引号，它将不会被视为一个运算符，即国家：“或”

lucene查询大小-是否可以缩放？查询'；1或2或3。。或N'；

标签： Lucene

假设我有一个lucene查询'id1或id2或id3。。。idN’。随着N的增加，这个比例有多大我看到的情况类似于某人在购物车中对产品进行文本搜索，但他们的购物车中可能有成百上千的商品。用户希望对其购物车中的所有产品进行文本搜索。我是否可以对所有可用产品执行文本查询，然后限制购物车中带有产品ID的OR子句返回的项目？查询中布尔语句的数量有限制。布尔查询中的最大子句数默认为1024。你可以增加这个限制。不过，会有表现惩罚。我想，如果你改用过滤器，效果会更好正如@Shashikant Kore提

带堵塞分析仪的Lucene荧光笔

标签： Lucene full-text-searchhighlightinganalyzersnowballanalyzer

我使用Lucene的Highlighter类突出显示匹配搜索结果的片段，效果很好。我想从StandardAnalyzer切换到EnglishAnalyzer，它将执行词干分析搜索结果不错，但现在荧光笔并不总是能找到匹配项。下面是我所看到的一个例子： document field text 1: Everyone likes goats. document field text 2: I have a goat that eats everything. 使用EnglishAnalyzer并

lucene-org.apache.lucene.store.MMapDirectory$MMapIndexInput中的JVM崩溃-klas:'org/apache/lucene/store/MMapDirectory$MMapIndexInput'

标签： Lucene crash Jvm

当索引大约100条记录时，我的应用程序出现以下异常-lucene中的JVM崩溃传递给JAVA VM的选项有： JAVA_OPTS="-Xms1303m -Xmx1303m -XX:MaxPermSize=256m -server -Dsun.rmi.dgc.client.gcInterval=1800000 -Dsun.rmi.dgc.server.gcInterval=1800000 -XX:ParallelGCThreads=8 -Djava.net.preferIPv4Stack=tr

如何查看Lucene索引

标签： Lucene luke

我正在努力学习和理解lucene是如何工作的，lucene索引中的内容是什么。基本上我想看看lucene索引中的数据是如何表示的我使用lucene core 8.6.0作为依赖项下面是我最基本的Lucene代码 private Document create(File file) throws IOException { Document document = new Document(); Field field = new Field("