Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene 在SOLR中动态创建新的核心目录

标签： Lucene Solr distributedsolrj

我使用Solr1.4.1构建分布式搜索引擎，但我不想只使用一个索引文件——我想在java代码中动态创建新的核心“索引”目录我发现以下RESTAPI使用现有的核心目录（）创建新的核心有没有一种方法可以在没有Existing core目录的情况下创建新的core？solr有这样的功能吗？通过rest还是在solrj api中？谢谢。目前无法通过编程方式将模式和配置提交给Solr以创建新的核心正如评论中提到的，您可以使用WebDAV、scp或sftp之类的工具来解决这个问题 http://loc

Lucene Katta docId到文档

标签： Lucene katta

如何在Katta中使用FieldCache，FieldCache需要IndexReader作为参数，然后如何从Katta API获取IndexReader。在katta中，lucenclient.java中的搜索方法返回Hits。从这个列表中，我可以得到每个点击的docId，但我需要Katta中docId的特定字段值。请给我一些编码示例。我从未与Katta合作过，我与Solr合作过，如果我必须按文档id获取文档，并且只能使用Lucene类，我会使用org.apache.Lucene.searc

在搜索期间计算lucene分数的哪一部分？

标签： Lucene

我想了解lucene在搜索过程中表现出什么样的分数？我看到Lucene TermVector包含一堆统计信息，当我搜索一个术语时，如何在查询时计算分数搜索期间是否使用TermVector及其统计信息？如果是，怎么做该课程负责评分文件 A对文档进行迭代。它与a一起用于分配分数，并根据这些分数对文档进行排序。记分器实例计算特定条件下的分数。有十几种不同的得分手。例如，TermScorer按如下方式计算原始分数： getSimilarity().tf(f)*weightValue 权重值是从查询

在Neo4j-Lucene索引的单个属性中存储多个值

标签： Lucene Indexing Neo4j multivalue

我想在neo4j Lucene index的单个索引属性中存储多个值，例如 IndexName: profile property- Education: "Stanford University, Grad School", "Harvard University, MS" property- Work: "Nokia Siemens Networks", "Motorola" 搜索也应适用于所有情况，如和、或我们可以通过Solr将属性设置为多值属性来实现这一点。我不确定neo4j+L

Lucene JackRabbit:TextFilterClass已弃用。如何指定提取器？

标签： Lucene jackrabbitjcr

我的Jackrabbit 2.4说，SearchIndex元素的textFilterClasses参数已被弃用并忽略。当我一起删除textFilterClasses参数时，它为Pdf、Rtf-everything建立索引当我没有指定提取器时，它如何知道应该索引哪些二进制文件 API说它已被弃用，但没有提供任何替代方案谢谢大家! Jackrabbit 2.x引入了Apache Tika作为默认二进制文件解析器。默认情况下，Jackrabbit附带一个默认的tika-config.xml文件，其

Lucene：按特定顺序搜索短语

标签： Lucene

使用lucene，我想按特定顺序搜索短语（多个单词）。我遇到了spanquery的示例，用于按特定顺序搜索单个术语，但这不符合我的要求，因为我希望在slop不一定为零的情况下搜索文档中按特定顺序出现的“短语”。那么我们在lucene中有这样的功能吗？或者我们可以使用spanquery按特定顺序搜索短语吗提前谢谢。您在找什么？我认为除非您将slop设置为零，否则phrasequery不会促进有序搜索。我错过什么了吗？我需要像spanquery这样的东西，在这里你可以按照特定的顺序搜索词汇，但是我

对当前已在Lucene中合并的索引调用Commit

标签： Lucene

我的问题被认为是Lucene.NET2.9.2 假设我使用IndexWriter更新了一个索引，这导致调度程序开始在后台合并段。如果在合并完成之前调用Commit，会发生什么？调用Commit的线程将被阻止并等待合并完成，还是两个线程是独立的答案对我的搜索实现非常重要，因为我依赖于字段缓存来解决性能问题，如果提交不会等待合并完成，我可能会得到错误的文档ID 更新：我试图做的是DocId到Appliciation Id之间的映射，所以在使用indexsearch搜索方法时，我不需要获取应用程序

Lucene ElasticSearch中的简单全文搜索

标签： Lucene elasticsearch

我试图了解ElasticSearch查询DSL是如何工作的。如果有人能给我举一个例子，说明如何执行类似以下MySQL查询的搜索，那将非常有帮助： SELECT * FROM products WHERE shop_id = 1 AND MATCH(title, description) AGAINST ('test' IN BOOLEAN MODE) 假设您为一些文档编制了索引，这些文档至少包含shop_id、title和description字段，如以下示例所示： { "sho

自然语言处理工具的比较（UIMA、LingPipe、Lucene、Gate、Stanford）

标签： Lucene Stanford Nlp gateuima

我想选择一个自然语言处理工具来完成常见任务，如标记化、句子检测、各种标记（名称实体识别、词性标记等）。我的问题分为两部分：选择自然语言处理的标准是什么工具在（UIMA、LingPipe、Lucene、Gate、Stanford）中，哪一个满足这些标准更好吗你有什么建议？一些一般标准：我可以使用提供的模型执行多少任务（例如，该工具是否包含用于我的任务的模型，如西班牙语标记化或蛋白质标记）添加缺少的工具对我来说有多容易顺便说一句，我会添加到您的列表中，以及它的关于你的任务，你能说得

Lucene IndexSearcher线程安全

标签： Lucene

依照 IndexSearcher是线程安全的。然而，我认为这是指Lucene的最新实现。我正在使用Lucene 3.0.3，我想知道在这个版本中IndexSercher是否也是线程安全的。是的，它是线程安全的。请看相应的：索引搜索器实例是完全线程安全的，意味着多个线程可以并发调用其任何方法。如果你的申请需要外部同步，不应在上同步 IndexSearcher实例；改用您自己的（非Lucene）对象

Lucene语法与'；和'；案例解释错误？

标签： Lucene

我有一个类似这样的问题： field1:“填充”和field2:“其他” 当使用小写字母和运行时，会产生不同的结果。所以这个查询： field1:“填充”和field2:“其他” 其中“and”为小写。我正在使用经典的QueryParser解析查询，在解析小写的“and”时，它不会抱怨（抛出异常），但它确实会生成“more”结果。就好像‘and’可能是它正在寻找的一个标记，因此比使用2个子句的普通查询产生的结果还要多 Lucene语法中的“and”大小写是如何解释的仅供参考，在Java 7和J

Lucene 检索由字段内容指定的N-gram的频率

标签： Lucene fieldfrequencyn-gram

有没有办法检索与Lucene 4.7.2索引中特定字段内容匹配的N-gram的频率我想找到并计算所有3-gram的出现，其中第一个标记是形容词（JJ），第二个标记是形容词（JJ），第三个标记是名词（NN）。此POS信息包含在名为postag的字段中我想到了一个使用IndexSearcherpostag的查询：“jjjnn”，但我不确定如何使用结果来计算发生次数感谢您的帮助您是否正在尝试获取包含该模式的文档数？或者在文档中找到该模式的时间？您第二次提到的是优先级最高的，但我需要实现这两个功

使用Lucene/ElasticSearch使用停止词进行模糊搜索会产生意外结果

标签： Lucene elasticsearchfuzzy-search

我注意到，停止词上的模糊运算符并没有产生我期望的结果以下是我的配置： index : analysis : analyzer : my_analyzer : tokenizer : my_tokenizer filter : [standard, my_stop_english_filter] tokenizer : my_tokenizer

集合上的Hibernate搜索（Lucene）筛选器

标签： Lucene hibernate-search

我在用Hibernate搜索过滤器实现布尔逻辑时遇到了一个问题。有些人可以成为团体的一部分。每个组都有一个来自状态目录的状态我需要筛选组1中状态为2的所有用户。为此，我对这两个子句都使用了带有Occurse.MUST的布尔查询，但在筛选结果中包含了具有Grop列表的人员，其中一个为1，组的一个状态为2，例如： person | group | status 105 (1) 3 105 2 3 105 3 (2) 188

Lucene中的术语文档有效负载支持

标签： Lucene codecpayload

我使用的是Elasticsearch 1.3.4，结果是Lucene 4.9。我需要为每个术语文档对存储一些信息（类似于术语频率，但只跨越可变字节数）。我知道Lucene支持有效负载，但这些信息是每个术语文档的。因此，在我的例子中，使用有效载荷是一种过分的做法。嗯，我也可以尝试将该信息保存为有效负载，只对应于文档中第一次出现的术语，但听起来不太干净我想知道是否有一个现成的解决方案，用于在Lucene中存储术语文档自定义信息。如果没有，我的选择是什么

pyLucene-如何使用BM25相似性代替tf idf

标签： Lucene tf-idfpylucene

据我所知，pyLucene现在也提供BM25相似性。我正在使用pyLucene-4.10.1，但找不到任何关于如何使用BM25而不是tf idf的示例。请指导。尝试使用setSimilarity of IndexSearcher设置检索模型 import lucene from java.nio.file import Paths from org.apache.lucene.store import SimpleFSDirectory from org.apache.lucene.index

elasticsearch 弹性搜索索引下的元数据？

标签：elasticsearch Lucene

我已经了解了弹性搜索是如何工作的我看到它保留了包含它的文档id，但我的问题是它是否也在文档中保留了准确的位置（如行号和列号）？据我理解，当ES存储一个术语（在分析阶段之后）时，它还存储文档中的偏移量（即其位置）请看这里：分析的字符串字段使用位置作为默认值以及类型上的“位置”选项：对单据编号、术语频率和术语位置（或顺序）进行索引。位置可用于邻近性或短语查询据我所知，当ES存储一个术语（在分析阶段之后）时，它还存储文档中的偏移量（即其位置）请看这里：分析的字符串字段使用位置作为默认值

Lucene 使用“Solr”进行镶嵌；“字符串”；“字段”；“文本”；字段和；“复制”；领域

标签： Lucene Solr facet

我对Solr和Faceting有一个问题，我想知道是否有人知道这个补丁。我现在有一个解决办法，但是我真的想弄清楚为什么我的查询不起作用这是我的模式，简化后更易于遵循： <fields> <field name="uniqueid" type="string" indexed="true" required="true"/>  <field name="recor

Lucene 统计字段上的Solr排除？

标签： Lucene Solr Statistics facet

可以标记特定的过滤器，并在刻面时排除这些过滤器。这通常在进行多选面时需要 stats.field是否可能有类似的功能 stats.field={!ex=foo}price // does not work 我有一个价格滑块，我需要最高价格，就像没有设置价格过滤器一样。是。使用stats=true&stats.field=price建议任何与此问题有关的人发布到Apache Solr Jira网站。（需要免费的Apache帐户。）如果您是Solr开发人员并希望编写此功能增强，我们向您致敬我想要

Lucene IndexWriter.ExpungeDeletes（）所需的可用磁盘空间量

标签： Lucene

我正在编写一个应用程序，它利用Lucene索引，用户必须频繁地更新或删除索引文档我知道，如果有人想要永久删除标记为从Lucene索引中删除的文档，那么他有两种选择： index writer.Optimize（）或 Indexwriter.ExpungeDeletes（）由于为每个删除会话优化索引既昂贵又耗时，而且需要2倍的可用磁盘空间，因此在磁盘空间不足的情况下，Optimize（）似乎不是一个好的选择所以很明显，我不得不选择ExpungeDeletes（），它声称耗时更少，而且不会强制

lucene:索引后重新打开indexreader

标签： Lucene

当我的搜索服务器开始运行时，它将一次加载所有查询的所有索引。但是，即使我重建了索引，它仍然使用旧索引。所以我认为我应该告诉searcher的indexReader在服务器重建索引后重新打开索引，但是如何实现它呢？也许使用生产者-消费者模式？虽然我可以使用indexReader.isCurrent（）检查索引是否已更改，但我必须在每次搜索或某个时间段检查此项。有没有更高效、实时的方法一种方便的方法是使用Lucene的helper类。如果您对进行近实时搜索感兴趣，您也可能对以下内容感兴趣上有一

使用coach-lucene对CouchDB数据进行排序

标签： Lucene Couchdb

我有一些汇总数据，使用一些相对简单的map/reduce视图很容易生成。但我们希望根据组缩减视图值（而不是键）对数据进行排序。有人建议我们可以利用这一点。但是怎么做呢？我不清楚如何使用全文索引对此类数据进行快速排序我们已经拥有的过于简化的示例视图如下所示： by_sender: { map: "function(doc) { emit(doc.sender, 1); }", reduce: "function(keys, values, rereduce) { return sum(

Lucene：至少查询一下

标签： Lucene

我试图找到是否有一种方法可以在lucene中搜索，即查找至少有一个单词与某个特定单词不匹配的所有文档例如，我想查找除“test”之外至少有一个单词的所有文档。i、 e.“测试”可能存在，也可能不存在，但除“测试”外，至少应有一个单词。在Lucene有办法做到这一点吗谢谢， Purushotham可以做到这一点，但这不是一个好主意查询执行的性能取决于两个因素：将查询与术语词典相交的时间检索每个匹配术语的文档的时间 Performant查询可以快速与术语词典相交，并且只匹配几个术语，这样第

Lucene在指定字段时不给出结果

标签： Lucene fieldpylucene

我有一个数据库，我在Lucene（使用Pylucene）中使用Lucene的字段按节（由文档中的标记指定）索引该数据库。这个指数似乎运行良好。我可以使用默认字段搜索它，它只是整个文档，并得到合理的结果问题是，当我使用特定部分（不是默认部分）搜索它时，我希望返回一定数量的结果（由indexsearch.search（query，results）指定），但它可能只返回任何结果。所以我的问题是：如何让它返回一个带有我指定结果数量的排名列表我指定字段的唯一位置是在QueryParser中，方法是调用

Lucene ElasticSearch方面计数与项目总数不匹配

标签： Lucene elasticsearch Nest

我的搜索索引中有98个文档。当我在没有过滤器的情况下进行方面搜索时，方面计数与该术语索引中的项数不匹配。如果我将facet集合设置为当前文档数98，那么facet计数将返回该术语的正确项数。下面是facet搜索的json 未返回正确数量的项目 { "facets": { "brand": { "terms": { "field": "brand", "all_terms": true } }, "global":

Lucene 如何在Elasticsearch中使用修改器执行全文搜索

标签： Lucene full-text-search Nlp elasticsearch

我正在使用Elasticsearch和Playframework[Java]以及全文搜索选项构建一个web应用程序。我想处理类似“索尼爱立信手机300美元以下”或“三星手机3g”。由于我是Lucene/Elasticsearch的新手，我想知道最好的方法是什么我是否需要在代码中解析“上、下、下”等术语，然后为Elasticsearch生成相关查询，还是有更好的/标准的方法？我知道NLP是一个非常复杂的领域，但我想知道其他人是如何做到这一点的，以及需要付出多少努力。我想补充一点，它不需要完美。有

geohash索引在Lucene中是如何工作的

标签： Lucene geohashing

在lucene spatial 4中，我想知道geohash索引在幕后是如何工作的。我理解geohash的概念，它基本上取2个点（lat，lon）并创建一个“string”散列索引只是一个“字符串”索引（r-树或四叉树）还是沿着这些线的某个东西（例如只是索引一个姓氏）…或者它有什么特别之处对于预先固定的类型搜索，是否所有的n-gram散列都被索引，例如，如果一个geohash是 drgt2abc是否将其索引为d、dr、drg、drgt等是否存在我们可能需要索引的默认n-gram数使用这种

Lucene查询解析器：将ConstantCoreQuery转换为SpanQuery

标签： Lucene

我有一个自定义的“短语查询解析器”，由一些不可用的第三方开发。该解析器将多个查询类型重写为多个查询（每种类型以某种不同的方式）。问题是，它是为Lucene v3编写的，现在我正在将搜索迁移到L.v4，而该解析器开始获取另一个要重写的类型（ConstantScoreQuery），这在以前是不期望的，现在它不由该解析器处理有人能帮我解释一下如何将ConstantCoreQuery转换成一种SpanQuery类型吗致以最良好的祝愿， Piotr是一个包装器。很可能它仍在生成一个SpanQuer

Lucene 弹性搜索查询通过通配符筛选出ID

标签： Lucene elasticsearch

我希望创建一个查询，它将过滤掉包含通配符的ID。例如，我想在任何地方搜索一些东西，除了ID包含单词current的地方。这可能吗？是的，可以使用/。我想不出一种直接使用补码选项的方法，因此我使用bool must_暂时不能解决您的问题。如果可能的话，我会在以后完善答案 POST <index name>/_search { "query": { "match_all": {} }, "filter": { "bool": {

Lucene Solrnet查询的最小值应匹配（mm）

标签： Lucene solr4solrnet

我正在使用ASP.NET MVC开发Solr版本4.10.2 我在Solr中执行了一个查询，如下所示： http://localhost:8983/solr/MyCoreName/select?q=red+sony+mobile+bluetooth+&wt=json&indent=true&defType=edismax&mm=50%25&stopwords=true&lowercaseOperators=true 更新我已使用以下查询选项执行了查询： options = new QueryO

Lucene 多租户休眠搜索

标签： Lucene hibernate-searchmulti-tenant

我的要求是每个租户的每个索引，我已经将hibernate配置为多租户，我需要将每个租户的数据库索引到不同的索引。我注意到了动态硬化策略。。但需求是动态的。它可以有n个碎片，而不需要任何关于每个租户存在的预先信息。甚至我的索引器也应该以这样的方式工作。每当它找到获取索引的hibernate请求时，它应该首先为该租户编制索引，然后对其进行搜索我怎么能做到谁能给我举个例子吗。请不要给hibernate文档链接。。。甚至是用于hibernate搜索的Jboss文档链接。要对特定租户进行索引，您应该

Lucene 循环遍历集合并根据显示的数量修改类

标签： Lucene Jekyll

我当前在我的\u config.yml中有一个类似这样的事件集： future:true collections: events: output: true permalink: /:collection/:name 我试图只显示未来的4个职位。但是，我想根据是否会显示0或1、2、3或4篇文章来更改其容器的类别 {% assign curDate = site.time | date: '%s' %} {% for event in site.events %}

允许Lucene.net'；s标准分析器，用于索引和搜索带有标点符号的术语

标签： Lucene lucene.net

有没有一种简单的方法可以配置Lucene.net的标准分析器，用标点符号索引和搜索词汇，例如Owner's，（Owner），hello world，Owner 标准分析器是我选择的分析器，因为我仍然希望能够识别URL/电子邮件并从查询中删除停止词。我通过将标准分析器替换为空白分析器，找到了解决方案。现在，它将所有单词（包括带有标点符号的单词）索引到Lucene中。我还将每个字段的值转换为小写，并在索引过程之前手动删除字符串中的所有停止字

Lucene ApacheIgnite中的文本查询未给出任何结果

标签： Lucene Ignite

以下是我做的项目我在远程模式下启动了点火我创建了一个缓存并添加了一些数据。（还创建了缓存配置）我正在做文本查询我的代码如下所示 TcpDiscoverySpi spi = new TcpDiscoverySpi(); TcpDiscoveryVmIpFinder ipFinder = new TcpDiscoveryVmIpFinder(true); String hosts[] = new String[]{"ip:48500"} ; ipFinder.s

Lucene 具有最小相似性问题的模糊搜索

标签： Lucene lucene.net

我正在使用Lucene.NETVER3.0.3并使用StandardAnalyzer创建索引我的索引中有一个文本，模糊搜索似乎不起作用文档中的文本：CUBAEXPORT 正在搜索的文本：CUBAEXPOR 最低相似性：90% 长度（立方导出）=10 长度（CUBAEXPOR）=9 编辑距离=1 相似性=（（10-1）/10）*100=90% 据我所知，CUBAEXPOR的比例肯定是90%，但现在是88% 它基于搜索项的长度和索引项的长度中的较小者。因此，由于搜索词的长度为9，因此0.88

Lucene:facet范围取决于返回的结果

标签： Lucene lucene.netfacet

我设置了一个工作搜索，在那里我给出了刻面范围，并得到了正确的结果。问题是，对于价格方面，我需要依赖于返回的结果，所以我无法事先知道范围示例1：搜索发现4种产品的价格如下：20、30、40、55。因此，我希望这些方面是这样的： 0 - 20 (1) 21 - 40 (2) 41 - 60 (1) 100 - 200 (1) 300 - 400 (1) 示例2：搜索发现了两种产品，价格如下：200400，所以我希望这些方面是这样的： 0 - 20 (1) 21 - 40 (2) 41 - 6

具有相同术语精确、通配符和模糊匹配的Lucene查询

标签： Lucene lucene.net

我试图得到Lucene的结果，首先是标题精确，然后是标题通配符，然后是标题模糊，然后是FieldX通配符，然后是FieldX模糊。。。但结果不符合预期顺序（模糊结果更高）查询： Title:term^3 Title:term*^2 $"Title:term^1.9~ Field1:term*^1.6 Field1:term^1.5~ Field2:term*^1.4 Field2:term^1.3~... 如何使用Lucene获得所需的结果排序？您是否尝试过按结果分数排序结果？示例

关于Lucene评分的问题

标签： Lucene

我有一个关于Lucene得分的问题。索引中有两个文档，一个包含“我的名字”，另一个包含“我的名字”。当我搜索关键字“我的名字”时，第二个文档列在第一个文档的上方。我想要的是，如果文档包含我键入的确切关键字，那么应该首先列出它，然后再列出其他关键字。有人能帮我怎么做吗。谢谢。第二次尝试回答： Lucene的默认行为应该是你所要求的。这里的关键因素是分数的一部分——有时长文档的分数低于短文档的分数。有关上下文，请参见。比如说，如果两次点击的长度标准是相同的，那么它们被任意排序该函数将帮助您了解为

我需要为此更改重建lucene索引吗？

标签： Lucene Solr

当我只向模式添加一个随机场时，是否需要重建Lucene索引？或者我可以运行一些代码来更新该字段而不重建索引吗这是我需要添加的字段：在本例中，Lucene是在Solr上运行的。IIRC您不需要重建索引或运行任何代码来更新随机字段，因为该字段类型实际上没有值，即它的值是根据完整字段名根据需要生成的。谢谢，事实证明是这样的。我的Lucene书还在邮寄中。：）

Lucene是否有HTML分析器/标记器？

标签： Lucene

我想从html索引文本，在Lucene中，实现这一点的最佳方法是什么？在Lucene中有什么好的Contrib模块可以做到这一点吗编辑最终使用了Jericho解析器。它不创建DOM，并且易于使用我假设您实际上不想为HTML标记编制索引。如果是这种情况，您可以首先使用从HTML提取文本。然后您可以在Lucene中为文本编制索引。您可能还想看看/Lucene-3.0.3/src/demo，它有一个HTML解析器示例。我建议使用来提取文本，然后使用Lucene。它对我很有用。还有比Tika更好

Lucene 有没有办法从solr中提取所有令牌？

标签： Lucene Solr

如何从solr中提取所有令牌？不是来自一个文档，而是来自solr中索引的所有文档谢谢您可以这样做（此示例被批准用于lucene 4.x索引）： IndexSearcher isearcher=newindexsearcher（dir，true）； IndexReader=isearcher.getIndexReader（）； Fields=MultiFields.getFields（读卡器）； Collection cols=reader.getFieldNames（IndexReader.

短语查询：如果找不到任何单词，Lucene可以从查询中跳过单词吗（不是精确搜索）

标签： Lucene

假设我正在请求[hibernate search]lucene短语。有两个文档满足确切的短语，但是有很多文档使用[hibernate search]lucene。我应该如何构造一个查询，首先显示准确的文档，然后显示没有单个单词的文档（[hibernate search]短语）？只是它们：“我的短语”我的短语对结果进行排序怎么样？我需要将“我的短语”的文档放在第一位，因为它与短语和术语查询都匹配。如果你担心的话，你可以更进一步：“我的短语”^2我的短语。

lucene索引更新策略

标签： Lucene

我正在为我的应用程序构建lucene web服务器（Java），并期望上游应用程序每秒能对该服务器进行近100次搜索（该服务器将托管在各种物理机箱上，由负载平衡器进行平衡） Data perspective I将拥有近50K个文档（每个文档的大小小于1kb），并且每天会有约500个新文档/更新文档我想知道在不影响上游扫描过程性能的情况下，每天在500个文档上建立索引的最推荐方法我不能在我的所有服务器之间使用任何共享位置来共享文件索引，我可以想到几个选项 1）使用DB索引（JDBC目录）-不

显示Lucene索引的内容

标签： Lucene luke

我正在尝试调试Lucene中的索引文档，我需要查看索引的内容，以便准确地查看文档是如何被索引的。据说Luke是这样做的，但是没有任何相关的文档，当我把它指向索引目录时（在其中任何一个目录下，虽然我不知道为什么它不能找出哪一个是正确的），我什么也得不到。确实有一些简单的方法可以做到这一点吗？卢克是一个简单的方法。你运行它，浏览到索引，然后开始比赛。再简单不过了。通过使用Luke的一些特性，也许它会帮助您继续使用它还有其他的工具，比如，这也是一个很好的工具，但它比Luke更难开始如果你能提供一些

基于标记化字符串的Lucene范围查询

标签： Lucene lucene.net

如果我有一个标记化的字符串，例如“12345 12346 12347”，范围查询会在该字段上工作吗？不确定.net，但在Java中，这会产生奇怪的结果。对于字符串范围查询，Lucene使用string.compareTo（string）。那么比如说, "2".compareTo("10") 结果将是1，这意味着2在词典上大于10。同时，1在词典学上小于10。这就是你想要的吗

elasticsearch Elasticsearch-使用同义词检查查询中是否包含文档

标签：elasticsearch Lucene fuzzy-searchsynonym

我想构建一个应用程序，其中匹配要求文档中的每个令牌至少包含在查询中一次请注意，这与标准预期不同。因此，文档现在相当小，而查询可能非常长。例如：文件： "elastic super cool". 有效的查询匹配将是 "I like elastic things since elasticsearch is super cool" 我设法从弹性搜索中获得匹配令牌的数量（另请参见）。因此，在上面的示例中，3个匹配（=文档长度）表示查询匹配但是我怎样才能把它和同义词结合起来呢假设“酷”的同

Lucene 使用ElasticSearch术语聚合动态创建的bucket构建Kibana直方图

标签： Lucene elasticsearch Kibana

我希望能够结合Kibana术语图的功能（能够根据特定属性值的唯一性创建bucket）和直方图图（根据查询将数据分成bucket，然后根据时间说明日期）总的来说，我想创建一个直方图，但我只想基于一个查询的结果创建直方图，而不是像在数据库中那样创建多个查询。相反，我希望每个bucket都是根据特定字段的唯一值动态创建的。例如，考虑以下查询返回的数据： {"myValueType": "New York"} {"myValueType": "New York"} {"myValueType": "N

在多JVM读取器中使用Lucene，在单独的JVM中使用IndexWriter

标签： Lucene distributed-computing

如何在多JVM设计中使用Lucene 例如，我们有一个JVM负责写入索引（因为不能有多个写入器写入同一个索引）现在我们有400个不同的客户机JVM，它们正试图从索引中读取数据我已经实现了一个用于写入索引的IndexServer JVM。并在每个客户机JVM中提供读卡器api，即每个客户机JVM都在打开IndexSearcher/reader以从相同的索引中读取写入频率为每分钟20K个文档（纯文本行）（500个文件/分钟）读取频率为每5分钟20K个文档我们在读者和作者身上都面临着严重的

如何使用Lucene以有意义的方式删除停止词

标签： Lucene stop-wordstext-analysis

我正在使用org.apache.lucene.analyzer.en.EnglishAnalyzer删除停止词和词干。然而，当我有一个像“心脏病”这样的短语时，分析器所做的是从短语中间删除“和”，这将使它变成一个无意义的短语（输出为“心脏病”）。我如何处理此问题并仅在必要时删除停止词？仅在必要时？这是什么意思？你指的是什么输出？停止词会被删除，因为它们不是有意义的搜索词，而分析通常只会影响文本的索引形式。它不应该影响搜索结果中返回的存储文本。如果你看一下我在帖子中的示例，你会知道我所说的“如果有

elasticsearch 更重视场的存在性

标签：elasticsearch Lucene

我正在尝试学习和编写elasticsearch查询。我意识到有一个“exists”字段返回指定字段是否存在的文档。为了了解这一点，我编写了一个简单的查询，我想了解更多信息并使用查询结构我有一个查询，它只检查至少一个指定字段是否存在。然而，我想给一个领域更多的权重。这是我的疑问： "query": { "bool": { "minimum_should_match" : 1, "should": [ { "exists": { "field": "ge