Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene查询语言是防黑客的吗

标签： Lucene

显然，它不能用来破坏索引或破解卡号、密码等（除非有人愚蠢到把卡号或密码放在索引中）有没有可能通过过于复杂的搜索关闭服务器我想我真正需要知道的是，我是否可以将用户输入的Lucene查询直接传递到搜索引擎，而无需进行消毒，并且不会受到恶意攻击。据我所知，您无需担心任何重大漏洞。根据您使用的查询解析器，您可能需要执行一些简单的清理限制查询字符串的长度检查您不想支持的字符。例如，+，-，[，]* 如果您让用户选择返回的结果数（例如10、20、50），请确保他们不能使用非常大的值不可能从查询解

elasticsearch 在容忍拼写错误的同时，我如何有效地找到某些文本中提到的所有人？

标签：elasticsearch Lucene full-text-searchaho-corasick

我有一个数百万名人的名单（来自维基数据），我需要创建一个系统，有效地查找在相当短的文本中提到的所有人：它可以是一个单词（如“爱因斯坦”）到几页文本（如维基百科页面）我需要这个系统能够容忍拼写错误（比如迈克·杰克逊而不是迈克尔·杰克逊）和短格式（比如M·杰克逊）。如果出现歧义，它应该返回所有可能的人（例如，“乔治·布什”应该同时返回父子，也可能返回其他同音词）这有几个有趣的答案，包括使用。有多种语言的库，包括。但是，它似乎不支持模糊搜索（即容忍拼写错误）我想我可以扩展词汇表，以包括每个名字的

让lucene只返回唯一的线程（为线程和帖子编制索引）

标签： Lucene information-retrieval

我有一个类似StackOverflow的系统，内容被组织成线程，每个线程都有自己的内容（问题正文/文本）和帖子/回复我正在开发通过Lucene搜索此内容的功能，如果可能的话，我决定为单个帖子编制索引（这使索引更容易更新，意味着我有更多的控制和调整结果的能力），而不是为整个线程编制索引。但是，我的问题是，我希望搜索显示线程列表，而不是帖子列表如何让Lucene在搜索帖子内容的同时只返回唯一的线程作为结果？每个文档都可以有一个“threadId”字段。运行搜索后，可以循环搜索结果集并返回所有唯一

使用Lucene搜索时使用FieldSelector

标签： Lucene

我通过Lucene在PubMed上搜索文章。 2000万篇文章中的每一篇都有一个摘要，约250字和一个ID 目前，我将搜索结果存储在TopDocs对象中，每次都需要几秒钟。搜索可以找到数千篇文章。我只是对这篇文章的ID感兴趣。 Lucene是否在TopDocs内部加载摘要如果是这样，我可以通过FieldSelector阻止这种行为，还是FieldSelector只与IndexReader一起工作而不与IndexSearcher一起工作？否，Lucene不会将字段值加载到TopDocs中。T

ehcache与lucene的比较

标签： Lucene ehcache

我们正在设计一个新的项目，我们需要确定一个缓存框架。我们正在研究ehcache和lucene的缓存。我们需要决定是使用lucene还是ehcache来满足缓存需求？使用ehcache或lucene进行缓存的优点/缺点是什么？lucene主要是一个搜索引擎，对搜索结果的缓存最少。将其称为缓存框架是不正确的 Ehcache和OSCache是流行的缓存框架，您可以使用/评估它们。请参见Lucene主要是一个搜索引擎，对搜索结果的缓存最少。将其称为缓存框架是不正确的 Ehcache和OSCache是流

Lucene 使用solr DIH时发出OOM

标签： Lucene Solr dataimporthandler

大家好：使用DIH执行完整导入命令时出现OOM错误，数据库为sql server 2008，数据库中只有30k行数据，如何修复？提前感谢您的帮助：）请参阅。请参阅。嗨，毛里西奥，谢谢您的帮助。我读过维基，但另一个问题是，如果我使用游标来避免OOM，导入速度会很慢。数据库中有4000万个数据，我想建立索引，有没有更好的方法来解决这个问题？@Illu:尝试自己编写导入过程，而不是使用DIH。嗨，Mauricio，谢谢你的帮助。我读过维基，但另一个问题是，如果我使用游标来避免OOM，导入速度会很慢

增加lucene中的术语'；s询问

标签： Lucene scoring

我想知道lucene query中的一个术语何时被提升，分数是如何变化的？我的意思是，当查询包含一个或多个术语时，lucene对文档进行评分的评分算法是什么？您可以在这里找到完整的答案：查询中的每个术语都用文档中一个查询术语的术语频率文档频率与2的幂反比（如果适用，fieldtype及其属性在这里很重要）这就是你所要求的以及d中术语t的范数（如果适用，可以在模式中禁用）简单的答案是将其乘以术语权重。您可以在这里找到完整的答案：查询中的每个术语都用文档中一个查询术语的术

Lucene 通过Hibernate搜索索引时，Hibernate筛选器不工作

标签： Lucene hibernate-searchhibernate-filters

我正在尝试使用@IndexedEmbedded为具有一对多关联的嵌入式集合（集合）编制索引。问题是，我们只是软删除应用程序中的记录，我希望对已编制索引的集合应用hibernate筛选器，以便在编制索引时排除逻辑删除的记录 @Index Class A { @IndexedEmbedded @OneToMany(targetEntity = B.class, fetch = FetchType.EAGER) @Filter(name = "deletedRecordsFilter") Set&l

lucene 4.0快照中缺少包

标签： Lucene

有人知道为什么在Lucene 4.0快照中没有QueryParser，也没有IndexWriter.MaxFieldLength（25000）和更多？我很难将代码移植到这个新版本，尽管我遵循下面给出的代码：如何找到丢失的软件包，以及如何获取它们？因为snapshop jar并不包含所有功能感谢Lucene已经重新构建，一些曾经在核心模块中的类现在在子模块中。现在，您将在queryparser子模块中找到。类似地，许多有用的分析器、令牌化器和令牌过滤器也被移动到了子模块中关于IndexWr

Lucene hibernate搜索数值范围查询<；浮动>；不处理用@NumericField定义的字段

标签： Lucene numerichibernate-searchrange

我使用HibernateSearch4.1.0，除了这个问题之外，结果很好。我试图在定义的列中执行范围搜索： @Field(name = "startTime", store = Store.YES) @NumericField public Float startTime; 我已存储startTime=0.0f的项目然后我尝试执行范围查询： NumericRangeQuery<Float> rangeQuery = NumericRangeQuery.newFloatRang

Lucene 使用PDFBox提取不带页眉和页脚的文本

标签： Lucene pdfbox

我使用PDFTextStripper类在Lucene索引之前提取pdf文本是否可以从提取的文本中排除pdf页眉和页脚？如果您知道页眉和页脚在文档中的确切位置，则可以按区域使用文本提取。希望这能有所帮助。如果您知道文档中页眉和页脚的确切位置，可以使用按区域提取的文本。希望这有帮助

Lucene Neo4j自动（数字）索引

标签： Lucene Indexing Neo4j

如果我在例如纬度和经度字段（键入：double）上启用自动索引，则无法执行此查询 autoIndex.query( QueryContext.numericRange( 'longitude', 16.598145, 46.377254 ) ); autoIndex定义为graphDb.index（）.getNodeAu

使用Lucene.net的短语和单词建议

标签： Lucene spell-checking

需要使用Lucene.net创建一个类似谷歌的建议。我目前正在使用ShingleanalyzerRapper进行短语建议，并已成功。但是如果没有找到任何短语，我需要搜索一个单词我对Lucene的世界是全新的。我需要在短时间内实现这一点。如果您有任何建议，我将不胜感激谢谢编辑我想简单地回答我的问题我应该使用拼写检查器吗？我应该如何索引短语？如何搜索短语如果有拼写错误的单词该怎么办？？如果你是Lucene的新手，这可能没那么容易。但是，您需要在更高的级别上检查短语的结果，如果返回的结

使用Tika解析流（读卡器），同时使用Lucene对其进行索引

标签： Lucene Streaming apache-tika

我正在阅读文档，想知道是否有可能不读取两次流，以便用Tika解析它，获取元数据+内容并在Lucene中索引它我希望避免在解析后将文件存储在内存中，因为它可能太大我正在阅读以下链接，它似乎将解析的文档内容保存在内存中- （可能与“”有关）（此外，我想确定Lucene的TextField处理Reader而不使用String，这会消耗内存）为什么要读取两次流？当然，它被Tika读取一次，然后你一次就将元数据和内容设置到Lucene中？这意味着内容将存储在内存中，这是我希望避免的另一件事。该文件可

如何使用Term或QueryParser从Lucene索引中删除文档

标签： Lucene Indexing

我正在尝试从Lucene索引中删除文档。我只想从lucene索引中删除指定的文件我下面的程序正在删除可以使用关键字分析器搜索的索引，但只能使用StandardAnalyzer搜索我所需的文件名。那么，在我的术语中设置标准分析器是什么方法呢？或者，我如何使用QueryParser从lucene索引中删除文档 try{ File INDEX_DIR= new File("D:\\merge lucene\\abc\\"); Directory directory = FSDi

Lucene Elasticsearch：何时将“忽略”选项设置为false

标签： Lucene Indexing elasticsearchnormalizationcore

在elasticsearch中，ommit\u norms选项的良好用例是什么？我在es网站上找不到足够的解释标准是存储在索引中字段旁边的值，用于评分。在默认的评分算法中，它结合了lengthNorm（短字段的权重比长字段的权重更大）和任何字段级别的提升。有关详细信息，请参见 LengthNorm方面在适当的全文字段中最有帮助。对于不需要字段提升的结构化字段，您可以安全地忽略它们。默认情况下，所有分析的字段都会启用规范，因为它们用于评分。简单地说，短字段比长字段得分高。无论何时，当人们不希望或

使用Cloudant/Lucene进行的模糊搜索没有结果

标签： Lucene cloudant

我用一个荷兰分析器在我的文档上有一些搜索索引，它工作得很好。例如，考虑：当我试图让我的搜索变得模糊时，一切都错了：突然返回0个结果。这怎么可能编辑：设计文件： {"_id": "_design/RegelingInfo", "_rev": "11-20993b8c49d8bcc1cd4fde58e5f40b27", "views": { "all": { "map": "function(doc) { \n if (doc.

Lucene Elasticsearch查询多个类型并按类型分组？

标签： Lucene elasticsearch

假设我要搜索两种类型的[汽车]和[建筑]，我希望结果是分开的。有没有一种方法可以按类型对结果进行分组我知道一种简单的方法是分别查询每个类型，但对于其他用例，实际上可能需要一起查询几十个或数百个类型。有没有一种原生的方式或黑客方式（比如使用sort）来实现这一点如果您想将结果分成多组文档，则必须重新构造文档，因为elasticsearch的重点是查找匹配的文档。您可以通过设计一个包含子文档的文档来解决这个问题，然后可以查询表示您的类型的父文档上的匹配项这种分组行为（目前）在elasticse

可以对Kibana/Lucene查询进行简单的演算吗？

标签： Lucene elasticsearch Kibana

我对Kibana有以下疑问 temp:[0 TO 7] AND station_id:3 我想要一些像 (temp:[0 TO 7])/4 AND station_id:3 可能吗？不，这是不可能的 Kibana中的查询遵循and，这是一种描述要检索哪些文档的方法这种处理需要脚本或结果后处理，而这些脚本或结果目前不是任何Kibana面板的功能。谢谢。是否可以在ES上执行此操作，将值\u count除以四？是的，您可以通过脚本字段实现这一点：可能我不清楚。我需要得到value\u count

Lucene contextsField做什么

标签： Lucene

我正在实现Lucene Autosuggest并试图找出contextsField在DocumentDictionary中的作用它似乎没有任何文档？contextsField是一个字符串字段，指定从何处读取上下文。它用于指定关联的上下文这里Context是一个枚举数，它指定目录所用于的上下文。好的，我还是不明白。你能举个例子吗？代码表明它可以用来过滤建议。

如何在Lucene中存储多种不同类型的文档

标签： Lucene lucene.net

我有一个现有的Lucene存储，其中包含数百万个文档，每个文档代表一个实体的元数据。我有几个Id字段（Id1、Id2..Id5），每个文档可以有零个或多个该字段的值。索引一次只能由这些ID中的一个查询。我已经独立地为这些字段编制了索引，而且一切都很好。我最初选择使用Lucene，因为它是迄今为止查询如此大量小文档的最快方式，我对我的决定感到满意但是，现在我必须存储另一种类型的文档，它也表示实体的不同类型的元数据，并具有（Id1、Id2..Id5）的值，并且也将由这些ID中的一个单独查询。现有元

elasticsearch 查询elasticsearch返回计数

标签：elasticsearch Lucene

我正在努力创建有助于创建警报脚本的查询/规则。我想在ElasticSearchAPI中查询特定索引的计数，以便在计数达到某个阈值时收到警报。以下查询是一次尝试，因为我对此没有经验： { "query": { "filtered": { "query": { "query_string": { "analyze_wildcard": true, "query": "*" } }, "filter": { "bool": {

elasticsearch 是否可以使用lucene查询语法在ElasticSearch中搜索嵌套对象？

标签：elasticsearch Lucene

我非常喜欢Lucene查询语言与ElasticSearch的简单可组合性。我们刚刚开始使用嵌套对象，我理解这一点，但我在任何地方都找不到有关使用Lucene语法进行嵌套查询的任何信息如果可能的话，是否有一些文档我已经在谷歌上搜索了相当广泛的“elasticsearch lucene”，我很难找到偶尔提到语法的博客文章，更不用说实际的文档了。同样，在这里搜索堆栈溢出也是徒劳的。这是Lucene目前不支持的弹性Github回购协议中有一些相关问题，但主要问题可在以及相关的拉取请求：如果你查

elasticsearch 具有边界盒地理定位的弹性搜索渗流在Lucene中引发NullPointerException

标签：elasticsearch Lucene Geolocation bounding-box

当我们从弹性搜索2.1.0迁移到2.2.0时，我遇到了一个有趣的问题我们目前正在使用ES的percolate功能，部分查询涉及边界框查询索引映射代码段：然后，假设我们有一个使用地理边界框过滤的查询： ... query... { "geo_bounding_box": { "location": { "top_left": [151.197033, -33.85610899999999], "bottom_right": [151.2229509999

elasticsearch 为什么Elasticsearch将字段数限制为1000 为什么Elasticsearch将字段总数限制为1000 它会导致性能下降吗如果会，为什么？lucene没有这样的限制

标签：elasticsearch Lucene

另外，有人能更详细地解释一下这些设置吗。我相信在这些设置方面，它是非常好的在某些情况下，索引的映射是动态的（通常记录用例或用户基础设施中的一些恶意文档生成器），这样做可能会导致索引中出现数十万个字段。通常情况下，只有少数文档在这些数以百万计的字段中有值，而大多数文档没有。从磁盘使用的角度来看，这不是一件好事。为什么这会成为一个问题，在中也得到了很好的解释然而，糟糕的是，大多数时候用户没有计划或没有预料到会有这么多字段，我们为字段计数引入的软限制是为了保护这些场景中的用户不会无意中伤害自己如

应用程序是否打算使用特定的Lucene类？

标签： Lucene levenshtein-distance

我是Apache Lucene库的新手。我想直接使用这个库中的一个类：levenshteindication来计算字符串之间的相似性搜索。对于我自己的应用程序来说，直接使用它是正确的吗？或者我应该使用Lucene api吗？仅使用单个类是完全可以的，但是如果您只需要获取该类的源代码，请删除不需要的Lucene依赖项并使用它。Lucene是一个巨大的东西，如果您只需要计算字符串距离，您就不想在项目中使用它有一件事：在LevenshteinDistance.java的源代码中有一条评论提到该代码取

用Lucene 7 OpenNLP查询词性标签

标签： Lucene Nlp opennlppart-of-speech

为了好玩和学习，我正在尝试用OpenNLP和Lucene 7.4构建一个词性词性标记器。这样做的目的是，一旦建立索引，我就可以搜索一系列的词性标记，并找到所有匹配序列的句子。我已经得到了索引部分，但我仍然停留在查询部分。我知道SolR可能有一些这方面的功能，我已经检查了代码，它毕竟不是那么自我解释的。但我的目标是理解和实现Lucene7，而不是SolR，因为我想独立于任何顶级搜索引擎意念输入句子1：敏捷的棕色狐狸跳过了懒惰的狗。 Applied Lucene OpenNLP标记器的结果是：[

需要有关Lucene索引/查询的帮助吗

标签： Lucene lucene.net

我想在Lucene索引中有一个“citystate”字段，它将存储各种城市状态值，如：伊利诺伊州芝加哥马萨诸塞州波士顿加利福尼亚州圣地亚哥如何在Lucene和中存储这些值（应该标记化还是非标记化？）我如何生成一个查询（应该是phrasequery或termquery还是其他什么？）来获取其citystate包含的所有记录：芝加哥、伊利诺伊州或波士顿、马萨诸塞州或加利福尼亚州圣地亚哥如果我也能在代码方面得到帮助，我将不胜感激谢谢。视情况而定。你会只想按城市搜索还是按州搜索？在这种

Lucene Solr DatImportHandler，同一类型的多个结果？

标签： Lucene Solr dataimporthandler

嘿，伙计们，我会一如既往地感谢你们的帮助我正在使用Solr对数据库中的数据进行索引。第一个表event_titles中的每一行都可以有多个与之关联的开始日期，包含在表event_dates中。数据配置如下 <entity name="events" query="select id,title_id,name,summary,description,type from event_titles"> <entity name="events" query="se

Lucene 如何从Solr索引中删除逻辑删除的文档？

标签： Lucene Solr solrj

我正在为一个项目实施Solr，在这个项目中，每天都需要大规模地添加和删除可供搜索的记录由于规模，我需要确保索引的大小是适当的在Solr的测试安装中，我为一组10个文档编制了索引。然后，我对其中一个文档进行了更改，并希望用索引中相同的ID替换该文档。当我搜索时，它工作正常，行为符合预期我正在使用此代码更新文档： getSolrServer().deleteById(document.getIndexId()); getSolrServer().add(document.getSolrInpu

Lucene 基于带条件的日期的Solr升压

标签： Lucene Solr nutch

我正在尝试在Solr查询中增加新文档。ms功能似乎是正确的选择，但我需要添加一个附加条件：我使用的最后一个修改日期从爬行网页作为日期来考虑，这并不总是提供有意义的日期。因此，我希望该函数只支持上一次修改日期中的日期（而不是时间）与时间戳不同的文档，从而消除只返回当前日期作为上一次修改日期的结果。感谢您的建议在索引过程中，应用您的逻辑并将日期添加到“日期”字段中。在搜索期间，使用date\u boost字段进行boost。正如baja fresh所建议的，您可能确实希望在业务层中执行此操作。但

Lucene 我正在使用Railo3.1和CFSearch，我想在多台机器上分发

标签： Lucene railoverity

我可以每隔5分钟将rsync lucene索引到另一对框中，然后运行同一个应用程序进行搜索吗我对应用服务器集群不感兴趣。嗯，它似乎不起作用 cfsearch无法处理复制的文件，可能它需要内存中的某些内容在每台机器上重建索引对我们来说已经足够好了

Lucene Jackrabbit-为什么搜索摘要包含所有连接的节点属性？

标签： Lucene highlightingjackrabbit

当我执行jackrabbit（版本2.2.9）搜索并调用get row.getValue（“rep:execrpt（）”）时，返回的字符串只是连接的所有属性（不包括jcr:properties）。我如何控制这个？如果在搜索“foo”时有一个名为“description”的属性包含“bla foo bla”，我希望rep:extract（）只返回部分描述我试图创建一个索引配置（并在测试之间删除了我的存储库），试图控制哪些属性被索引，但没有成功 xml <SearchIndex class=

最小化Lucene索引文件数

标签： Lucene lucene.net

我有一个特定的应用程序，它要求组成索引的文件数量尽可能少。以前，当我使用Lucene.NET 2.9.2时，我能够使用以下方法将整个索引保存在3（或4）个文件中： writer.SetUseCompoundFile(true); writer.Optimize(1, true); 升级到Lucene.NET 2.9.4后，相同的代码生成由10个文件组成的索引（fdt、fdx、fnm、frq、nrm、prx、tii、tis+segments.gen和segments_c）。我怎么能再把它弄下来

Lucene 过滤谷歌查询结果

标签： Lucene Google Api Mediawiki wikipedia

我正在使用wiki xml转储上的lucene为wikipedia文章编写一个搜索引擎，当我在查询中给出“site:en.wikipedia.org”时，我想计算与特定查询上的google wiki结果相比，该引擎的准确性。我想对多个查询执行此操作，因此我将手动获取google搜索结果URL。我让谷歌API使用机器人搜索谷歌，但问题是我想摆脱某些类型的结果，如 “/类别：” “/图标：” “/文件：” “/照片：” 和用户页面但是我还没有找到一种方便的方法来实现这一点，除了使用一种迭代方法来发

Lucene 在RavenDB中定义查询分析器

标签： Lucene Ravendb analyzer

我已经用标准分析器创建了一个索引。我知道在Lucene中，您还可以定义用于解析查询的分析器，以便它与索引的分析器匹配如何使用RavenDB完成此操作？您定义了analyzer，然后为相关字段注册它（您需要提供程序集限定名）。您定义了analyzer，然后为相关字段注册它（您需要提供程序集限定名）。您能给出一个示例吗？这是每个查询还是在服务器端完成的？都在文档中。你能举例说明如何完成吗？这是每个查询还是在服务器端完成的？都在文档中

Lucene 在弹性搜索中查找具有特殊字符的子串

标签： Lucene elasticsearch

我不熟悉弹性搜索。我想按子字符串搜索，它由数字和“/”和“-”等符号组成。例如，我使用默认设置和一个索引字段创建索引： curl -XPUT "http://localhost:9200/test/" -d ' { "mappings" : { "properties": { "test_field": { "type": "string"

理解Lucene语法

标签： Lucene

这是不是 +(content:#b content:#a +content:#c) 意思是 where content includes #b AND #a OR content includes #c? 我通读了一遍，但仍然不确定我的问题的答案。不，这不是它的意思。首先，外部+是隐含的。不会返回不匹配的结果。因此，在没有任何其他术语的情况下，该查询与 content:#b content:#a +content:#c 或：必须匹配内容：#c，可选内容：#b和/或内容：#a 您提供的含义的

Lucene 谷歌分析的内部搜索

标签： Lucene Google Analytics

我需要在一个我有自己搜索功能的网站上实现google analytics，我希望能够告诉analytics用户在内部搜索中搜索什么，这样我就可以捕获搜索词和其他有趣的东西因此，当用户使用内部搜索进行搜索时，应该在google analytics中显示，他们使用了哪些术语，访问了哪些页面等等。。谷歌自己的搜索引擎实现的所有东西其他人一定做过，但我找不到正确的信息提前谢谢正如艾克·皮尔斯托夫（Eike Pierstorff）在他的评论中提到的那样，在界面中，您可以设置GA以在URL中查找参数

Lucene ElasticSearch：根据字段长度筛选文档

标签： Lucene elasticsearch

我在SO上读到了两个类似的问题，并建议解决方案无效。我想找到word短于8的所有字段我的数据库屏幕：我尝试使用此查询来完成此操作 { "query": { "match_all": {} }, "filter": { "script": { "script": "doc['word'].length < 5" } } } { “查询”：{ “全部匹配”：{} }, “过滤器”：{ “脚本”：{ “脚本”：“文档['word']，

Lucene Boost在elasticsearch上不起作用

标签： Lucene elasticsearch

我是Elasticsearch新手，对\u分数的计算方法感到困惑。我试图通过阅读网上的一些论坛条目来了解发生了什么（和），但仍然有一些疑问，无法完全解决我的问题目标给定一些具有字段title和content的文档，查找与查询匹配的文档，并在title字段上增加匹配项数据 PUT /sample/myType/1 { "title": "Blabbertalk here", "content": "Foobar here" } PUT /sample/myType/2 {

Lucene前端/GUI

标签： Lucene hibernate-search

我正在使用hibernate内核和hibernate搜索。就像我可以使用一些数据库前端查看具有hibernate核心的持久化实体一样，我需要一个用于hibernate search/lucene的前端来查看lucene索引我尝试了最新的luke，但它是alpha，对我来说不正确 Solr似乎有一些web前端。但它是hibernate搜索的一种替代方法，如果我正确理解了所有阅读内容，那么很难与它集成我的愿望是看看，为特定的实体（及其关系）编入索引的术语是什么有什么想法吗？蒂亚您可以尝试Hi

Lucene 字母数字范围查询

标签： Lucene alphanumericrange-query

有没有一种有效的方法来处理lucene中的字母数字范围？示例范围 1至1（包括1A、1B、1Z） 10A12至10A22（包括10A12、10A13..120A22） 1至10（包括1A、1B、2A、2B、9Z、10）[不包括10A] 我有两种方法：展开每个范围并索引所有可能的值。我想独特的价值不会很大低值和高值索引。然后使用范围查询。不确定，范围查询对字母数字范围的效果如何需要专家的建议。我希望您同意，您定义的规则是非常习惯的，并不真正适用于通用框架，例如Lucene。例如，为什么

使用Tika使用Jackrabbit和Lucene进行索引和全文搜索

标签： Lucene full-text-searchjackrabbitapache-tikajcr-sql2

全文搜索不起作用我正在使用创建文档管理系统 ApacheJackrabbit 2.9.0和tika解析器1.3 在workspace.xml和repository.xml中添加了tikaConfig <SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> <param name="path" value="${wsp.home}/index"/> <para

Lucene搜索后，获取文档中所有匹配单词的字符偏移量？（不仅仅是预览片段）

标签： Lucene highlight

我正在使用lucene为大量HTML文档创建搜索引擎我知道我可以使用PostingsHighlighter和friends来显示片段，用粗体字，类似于谷歌搜索结果，也类似于但是，与这些示例不同，我需要一个解决方案，它可以保留突出显示的单词，即使用户打开匹配的文档后也是如此，类似于GoogleBooks 有些单词以的形式连字符。。。国际观众…我想我需要先将这些内容转换成纯文本，然后编写一些代码来合并连字符的单词，然后再将它们发送给lucene 一旦用户打开生成的文档，我希望可以使用lucene

elasticsearch elasticsearch文档中的加权关键字

标签：elasticsearch Lucene Nosql

我想在elasticsearch中创建一个索引，该索引有一个加权关键字列表字段，因此，当我在该关键字中按术语搜索时，它将为那些具有更高权重的该关键字的文档提供更好的分数例如：文件1 “id”：“111” “关键词”：“房子”（20）、“狗”（2）文档2 “id”：“222” “关键词”：“房子”（3）、“狗”（40）我想在搜索“狗”时得到分数更高的doc2 您将如何构建映射和查询请注意，它不同于使用常规boost进行搜索，因为每个术语的boost在每个文档中都是不同的。关于Elasti

elasticsearch ElasticSearch查询DSL组合术语和通配符

标签：elasticsearch Lucene Kibana

我必须区分单独运行良好的查询： {“通配符”：{“城市”：“*海滩*”} {“条款”：{“州”：[“佛罗里达州”、“乔治亚州”]} 但将它们合并到一个查询中被证明是一个相当大的挑战我原以为只要简单地做{code>{“通配符”：{“城市”：“*海滩*”}，{“术语”：{“州”：[“佛罗里达州”，“乔治亚州”]}}就可以了，但事实并非如此。因此，我尝试了使用数组、布尔查询等不同的迭代。有人能给我指出正确的方向吗？应该是正确的方法以下是您的用例示例： { "query": { "b

elasticsearch 在Kibana上查询Lucene发现未按预期工作？

标签：elasticsearch Lucene Logstash Kibana

我正在尝试在日志存储索引的“主机”属性上搜索服务器名称我正在Kibana的“发现”选项卡上搜索当我在搜索栏中录制sl00pm时，我得到：未找到任何结果但当我添加星号（*）并搜索sl00pm*时，我得到了以下结果：主持人：sl00pm.soo85.poly-vale.intra日期：2019-03-20 15:23:10591 我不明白为什么但是，当我对另一个服务器名执行相同的manip时，我得到了以下结果：主持人：slzq85.soo85.poly-vale.intra-date:

Lucene ElasticSearch：节点名称的首选项？

标签： Lucene elasticsearch

阅读ElasticSearch文档，我知道您可以指定一个首选节点ID来执行搜索，如是否有方法传递节点名称而不是节点ID？原因是节点ID有时会更改，而名称在配置文件中是硬编码的，并且是静态的如果没有，这听起来像是一个非常合理的ElasticSearch增强功能。您是否按名称尝试过它？我发现了api的另一部分，它被记录为只按ID工作，事实上按ID和名称工作。是的，我尝试了名称，但它不接受。我会将这个增强想法发布到ES github，那里的人在提出好想法并将其纳入ES方面做得很好。 _prefer

elasticsearch 弹性相关因子

标签：elasticsearch Lucene

我不明白-0.68的值怎么会变成0.13。它应该给出数组元素的最大值，不是吗这与查询规范有关吗？我可以忽略这个行为吗？我的关联函数需要一致地使用这些值 { "value": 0.13904124, "description": "function score, score mode [max]", "details": [ { "value":