Lucene 在SOLR中动态创建新的核心目录

我使用Solr1.4.1构建分布式搜索引擎,但我不想只使用一个索引文件——我想在java代码中动态创建新的核心“索引”目录 我发现以下RESTAPI使用现有的核心目录()创建新的核心 有没有一种方法可以在没有Existing core目录的情况下创建新的core?solr有这样的功能吗?通过rest还是在solrj api中?谢谢。目前无法通过编程方式将模式和配置提交给Solr以创建新的核心 正如评论中提到的,您可以使用WebDAV、scp或sftp之类的工具来解决这个问题 http://loc

Lucene Katta docId到文档

如何在Katta中使用FieldCache,FieldCache需要IndexReader作为参数,然后如何从Katta API获取IndexReader。在katta中,lucenclient.java中的搜索方法返回Hits。 从这个列表中,我可以得到每个点击的docId,但我需要Katta中docId的特定字段值。请给我一些编码示例。我从未与Katta合作过,我与Solr合作过,如果我必须按文档id获取文档,并且只能使用Lucene类,我会使用org.apache.Lucene.searc

在搜索期间计算lucene分数的哪一部分?

我想了解lucene在搜索过程中表现出什么样的分数?我看到Lucene TermVector包含一堆统计信息,当我搜索一个术语时,如何在查询时计算分数 搜索期间是否使用TermVector及其统计信息?如果是,怎么做 该课程负责评分文件 A对文档进行迭代。它与a一起用于分配分数,并根据这些分数对文档进行排序。记分器实例计算特定条件下的分数。有十几种不同的得分手。例如,TermScorer按如下方式计算原始分数: getSimilarity().tf(f)*weightValue 权重值是从查询

在Neo4j-Lucene索引的单个属性中存储多个值

我想在neo4j Lucene index的单个索引属性中存储多个值,例如 IndexName: profile property- Education: "Stanford University, Grad School", "Harvard University, MS" property- Work: "Nokia Siemens Networks", "Motorola" 搜索也应适用于所有情况,如和、或 我们可以通过Solr将属性设置为多值属性来实现这一点。我不确定neo4j+L

Lucene JackRabbit:TextFilterClass已弃用。如何指定提取器?

我的Jackrabbit 2.4说,SearchIndex元素的textFilterClasses参数已被弃用并忽略。当我一起删除textFilterClasses参数时,它为Pdf、Rtf-everything建立索引 当我没有指定提取器时,它如何知道应该索引哪些二进制文件 API说它已被弃用,但没有提供任何替代方案 谢谢大家! Jackrabbit 2.x引入了Apache Tika作为默认二进制文件解析器。默认情况下,Jackrabbit附带一个默认的tika-config.xml文件,其

Lucene:按特定顺序搜索短语

使用lucene,我想按特定顺序搜索短语(多个单词)。我遇到了spanquery的示例,用于按特定顺序搜索单个术语,但这不符合我的要求,因为我希望在slop不一定为零的情况下搜索文档中按特定顺序出现的“短语”。那么我们在lucene中有这样的功能吗?或者我们可以使用spanquery按特定顺序搜索短语吗 提前谢谢。您在找什么?我认为除非您将slop设置为零,否则phrasequery不会促进有序搜索。我错过什么了吗?我需要像spanquery这样的东西,在这里你可以按照特定的顺序搜索词汇,但是我

对当前已在Lucene中合并的索引调用Commit

我的问题被认为是Lucene.NET2.9.2 假设我使用IndexWriter更新了一个索引,这导致调度程序开始在后台合并段。如果在合并完成之前调用Commit,会发生什么?调用Commit的线程将被阻止并等待合并完成,还是两个线程是独立的 答案对我的搜索实现非常重要,因为我依赖于字段缓存来解决性能问题,如果提交不会等待合并完成,我可能会得到错误的文档ID 更新: 我试图做的是DocId到Appliciation Id之间的映射,所以在使用indexsearch搜索方法时,我不需要获取应用程序

Lucene ElasticSearch中的简单全文搜索

我试图了解ElasticSearch查询DSL是如何工作的。 如果有人能给我举一个例子,说明如何执行类似以下MySQL查询的搜索,那将非常有帮助: SELECT * FROM products WHERE shop_id = 1 AND MATCH(title, description) AGAINST ('test' IN BOOLEAN MODE) 假设您为一些文档编制了索引,这些文档至少包含shop_id、title和description字段,如以下示例所示: { "sho

自然语言处理工具的比较(UIMA、LingPipe、Lucene、Gate、Stanford)

我想选择一个自然语言处理工具来完成常见任务,如标记化、句子检测、各种标记(名称实体识别、词性标记等)。我的问题分为两部分: 选择自然语言处理的标准是什么 工具 在(UIMA、LingPipe、Lucene、Gate、Stanford)中,哪一个满足 这些标准更好吗 你有什么建议?一些一般标准: 我可以使用提供的模型执行多少任务(例如,该工具是否包含用于我的任务的模型,如西班牙语标记化或蛋白质标记) 添加缺少的工具对我来说有多容易 顺便说一句,我会添加到您的列表中,以及它的 关于你的任务,你能说得

Lucene IndexSearcher线程安全

依照 IndexSearcher是线程安全的。 然而,我认为这是指Lucene的最新实现。 我正在使用Lucene 3.0.3,我想知道在这个版本中IndexSercher是否也是线程安全的。是的,它是线程安全的。请看相应的: 索引搜索器实例是完全线程安全的,意味着多个 线程可以并发调用其任何方法。如果你的申请 需要外部同步,不应在上同步 IndexSearcher实例;改用您自己的(非Lucene)对象

Lucene语法与';和';案例解释错误?

我有一个类似这样的问题: field1:“填充”和field2:“其他” 当使用小写字母和运行时,会产生不同的结果。所以这个查询: field1:“填充”和field2:“其他” 其中“and”为小写。我正在使用经典的QueryParser解析查询,在解析小写的“and”时,它不会抱怨(抛出异常),但它确实会生成“more”结果。就好像‘and’可能是它正在寻找的一个标记,因此比使用2个子句的普通查询产生的结果还要多 Lucene语法中的“and”大小写是如何解释的 仅供参考,在Java 7和J

Lucene 检索由字段内容指定的N-gram的频率

有没有办法检索与Lucene 4.7.2索引中特定字段内容匹配的N-gram的频率 我想找到并计算所有3-gram的出现,其中第一个标记是形容词(JJ),第二个标记是形容词(JJ),第三个标记是名词(NN)。此POS信息包含在名为postag的字段中 我想到了一个使用IndexSearcherpostag的查询:“jjjnn”,但我不确定如何使用结果来计算发生次数 感谢您的帮助 您是否正在尝试获取包含该模式的文档数?或者在文档中找到该模式的时间?您第二次提到的是优先级最高的,但我需要实现这两个功

集合上的Hibernate搜索(Lucene)筛选器

我在用Hibernate搜索过滤器实现布尔逻辑时遇到了一个问题。 有些人可以成为团体的一部分。每个组都有一个来自状态目录的状态 我需要筛选组1中状态为2的所有用户。为此,我对这两个子句都使用了带有Occurse.MUST的布尔查询,但在筛选结果中包含了具有Grop列表的人员,其中一个为1,组的一个状态为2,例如: person | group | status 105 (1) 3 105 2 3 105 3 (2) 188

Lucene中的术语文档有效负载支持

我使用的是Elasticsearch 1.3.4,结果是Lucene 4.9。我需要为每个术语文档对存储一些信息(类似于术语频率,但只跨越可变字节数)。我知道Lucene支持有效负载,但这些信息是每个术语文档的。因此,在我的例子中,使用有效载荷是一种过分的做法。嗯,我也可以尝试将该信息保存为有效负载,只对应于文档中第一次出现的术语,但听起来不太干净 我想知道是否有一个现成的解决方案,用于在Lucene中存储术语文档自定义信息。如果没有,我的选择是什么

pyLucene-如何使用BM25相似性代替tf idf

据我所知,pyLucene现在也提供BM25相似性。我正在使用pyLucene-4.10.1,但找不到任何关于如何使用BM25而不是tf idf的示例。请指导。尝试使用setSimilarity of IndexSearcher设置检索模型 import lucene from java.nio.file import Paths from org.apache.lucene.store import SimpleFSDirectory from org.apache.lucene.index

elasticsearch 弹性搜索索引下的元数据?

我已经了解了弹性搜索是如何工作的 我看到它保留了包含它的文档id,但我的问题是它是否也在文档中保留了准确的位置(如行号和列号)?据我理解,当ES存储一个术语(在分析阶段之后)时,它还存储文档中的偏移量(即其位置) 请看这里: 分析的字符串字段使用位置作为默认值 以及类型上的“位置”选项: 对单据编号、术语频率和术语位置(或顺序)进行索引。位置可用于邻近性或短语查询 据我所知,当ES存储一个术语(在分析阶段之后)时,它还存储文档中的偏移量(即其位置) 请看这里: 分析的字符串字段使用位置作为默认值

Lucene 使用“Solr”进行镶嵌;“字符串”;“字段”;“文本”;字段和;“复制”;领域

我对Solr和Faceting有一个问题,我想知道是否有人知道这个补丁。我现在有一个解决办法,但是我真的想弄清楚为什么我的查询不起作用 这是我的模式,简化后更易于遵循: <fields> <field name="uniqueid" type="string" indexed="true" required="true"/> <!-- Indexed and Stored Field ---> <field name="recor

Lucene 统计字段上的Solr排除?

可以标记特定的过滤器,并在刻面时排除这些过滤器。这通常在进行多选面时需要 stats.field是否可能有类似的功能 stats.field={!ex=foo}price // does not work 我有一个价格滑块,我需要最高价格,就像没有设置价格过滤器一样。是。使用stats=true&stats.field=price建议任何与此问题有关的人发布到Apache Solr Jira网站。(需要免费的Apache帐户。)如果您是Solr开发人员并希望编写此功能增强,我们向您致敬 我想要

Lucene IndexWriter.ExpungeDeletes()所需的可用磁盘空间量

我正在编写一个应用程序,它利用Lucene索引,用户必须频繁地更新或删除索引文档 我知道,如果有人想要永久删除标记为从Lucene索引中删除的文档,那么他有两种选择: index writer.Optimize()或 Indexwriter.ExpungeDeletes() 由于为每个删除会话优化索引既昂贵又耗时,而且需要2倍的可用磁盘空间,因此在磁盘空间不足的情况下,Optimize()似乎不是一个好的选择 所以很明显,我不得不选择ExpungeDeletes(),它声称耗时更少,而且不会强制

lucene:索引后重新打开indexreader

当我的搜索服务器开始运行时,它将一次加载所有查询的所有索引。但是,即使我重建了索引,它仍然使用旧索引。所以我认为我应该告诉searcher的indexReader在服务器重建索引后重新打开索引,但是如何实现它呢? 也许使用生产者-消费者模式?虽然我可以使用indexReader.isCurrent()检查索引是否已更改,但我必须在每次搜索或某个时间段检查此项。有没有更高效、实时的方法 一种方便的方法是使用Lucene的helper类。如果您对进行近实时搜索感兴趣,您也可能对以下内容感兴趣 上有一

使用coach-lucene对CouchDB数据进行排序

我有一些汇总数据,使用一些相对简单的map/reduce视图很容易生成。但我们希望根据组缩减视图值(而不是键)对数据进行排序。有人建议我们可以利用这一点。但是怎么做呢?我不清楚如何使用全文索引对此类数据进行快速排序 我们已经拥有的 过于简化的示例视图如下所示: by_sender: { map: "function(doc) { emit(doc.sender, 1); }", reduce: "function(keys, values, rereduce) { return sum(

Lucene:至少查询一下

我试图找到是否有一种方法可以在lucene中搜索,即查找至少有一个单词与某个特定单词不匹配的所有文档 例如,我想查找除“test”之外至少有一个单词的所有文档。i、 e.“测试”可能存在,也可能不存在,但除“测试”外,至少应有一个单词。在Lucene有办法做到这一点吗 谢谢, Purushotham可以做到这一点,但这不是一个好主意 查询执行的性能取决于两个因素: 将查询与术语词典相交的时间 检索每个匹配术语的文档的时间 Performant查询可以快速与术语词典相交,并且只匹配几个术语,这样第

Lucene在指定字段时不给出结果

我有一个数据库,我在Lucene(使用Pylucene)中使用Lucene的字段按节(由文档中的标记指定)索引该数据库。这个指数似乎运行良好。我可以使用默认字段搜索它,它只是整个文档,并得到合理的结果 问题是,当我使用特定部分(不是默认部分)搜索它时,我希望返回一定数量的结果(由indexsearch.search(query,results)指定),但它可能只返回任何结果。所以我的问题是:如何让它返回一个带有我指定结果数量的排名列表 我指定字段的唯一位置是在QueryParser中,方法是调用

Lucene ElasticSearch方面计数与项目总数不匹配

我的搜索索引中有98个文档。当我在没有过滤器的情况下进行方面搜索时,方面计数与该术语索引中的项数不匹配。如果我将facet集合设置为当前文档数98,那么facet计数将返回该术语的正确项数。下面是facet搜索的json 未返回正确数量的项目 { "facets": { "brand": { "terms": { "field": "brand", "all_terms": true } }, "global":

Lucene 如何在Elasticsearch中使用修改器执行全文搜索

我正在使用Elasticsearch和Playframework[Java]以及全文搜索选项构建一个web应用程序。我想处理类似“索尼爱立信手机300美元以下”或“三星手机3g”。由于我是Lucene/Elasticsearch的新手,我想知道最好的方法是什么 我是否需要在代码中解析“上、下、下”等术语,然后为Elasticsearch生成相关查询,还是有更好的/标准的方法?我知道NLP是一个非常复杂的领域,但我想知道其他人是如何做到这一点的,以及需要付出多少努力。我想补充一点,它不需要完美。有

geohash索引在Lucene中是如何工作的

在lucene spatial 4中,我想知道geohash索引在幕后是如何工作的。我理解geohash的概念,它基本上取2个点(lat,lon)并创建一个“string”散列 索引只是一个“字符串”索引(r-树或四叉树)还是沿着这些线的某个东西(例如只是索引一个姓氏)…或者它有什么特别之处 对于预先固定的类型搜索,是否所有的n-gram散列都被索引,例如,如果一个geohash是 drgt2abc是否将其索引为d、dr、drg、drgt等 是否存在我们可能需要索引的默认n-gram数 使用这种

Lucene查询解析器:将ConstantCoreQuery转换为SpanQuery

我有一个自定义的“短语查询解析器”,由一些不可用的第三方开发。 该解析器将多个查询类型重写为多个查询(每种类型以某种不同的方式)。 问题是,它是为Lucene v3编写的,现在我正在将搜索迁移到L.v4,而该解析器开始获取另一个要重写的类型(ConstantScoreQuery),这在以前是不期望的,现在它不由该解析器处理 有人能帮我解释一下如何将ConstantCoreQuery转换成一种SpanQuery类型吗 致以最良好的祝愿, Piotr是一个包装器。很可能它仍在生成一个SpanQuer

Lucene 弹性搜索查询通过通配符筛选出ID

我希望创建一个查询,它将过滤掉包含通配符的ID。例如,我想在任何地方搜索一些东西,除了ID包含单词current的地方。这可能吗?是的,可以使用/。我想不出一种直接使用补码选项的方法,因此我使用bool must_暂时不能解决您的问题。如果可能的话,我会在以后完善答案 POST <index name>/_search { "query": { "match_all": {} }, "filter": { "bool": {

Lucene Solrnet查询的最小值应匹配(mm)

我正在使用ASP.NET MVC开发Solr版本4.10.2 我在Solr中执行了一个查询,如下所示: http://localhost:8983/solr/MyCoreName/select?q=red+sony+mobile+bluetooth+&wt=json&indent=true&defType=edismax&mm=50%25&stopwords=true&lowercaseOperators=true 更新 我已使用以下查询选项执行了查询: options = new QueryO

Lucene 多租户休眠搜索

我的要求是每个租户的每个索引,我已经将hibernate配置为多租户,我需要将每个租户的数据库索引到不同的索引。我注意到了动态硬化策略。。但需求是动态的。它可以有n个碎片,而不需要任何关于每个租户存在的预先信息。甚至我的索引器也应该以这样的方式工作。每当它找到获取索引的hibernate请求时,它应该首先为该租户编制索引,然后对其进行搜索 我怎么能做到 谁能给我举个例子吗。 请不要给hibernate文档链接。。。甚至是用于hibernate搜索的Jboss文档链接。要对特定租户进行索引,您应该

Lucene 循环遍历集合并根据显示的数量修改类

我当前在我的\u config.yml中有一个类似这样的事件集: future:true collections: events: output: true permalink: /:collection/:name 我试图只显示未来的4个职位。但是,我想根据是否会显示0或1、2、3或4篇文章来更改其容器的类别 {% assign curDate = site.time | date: '%s' %} {% for event in site.events %}

允许Lucene.net';s标准分析器,用于索引和搜索带有标点符号的术语

有没有一种简单的方法可以配置Lucene.net的标准分析器,用标点符号索引和搜索词汇,例如Owner's,(Owner),hello world,Owner 标准分析器是我选择的分析器,因为我仍然希望能够识别URL/电子邮件并从查询中删除停止词。我通过将标准分析器替换为空白分析器,找到了解决方案。现在,它将所有单词(包括带有标点符号的单词)索引到Lucene中。我还将每个字段的值转换为小写,并在索引过程之前手动删除字符串中的所有停止字

Lucene ApacheIgnite中的文本查询未给出任何结果

以下是我做的项目 我在远程模式下启动了点火 我创建了一个缓存并添加了一些数据。(还创建了缓存配置) 我正在做文本查询 我的代码如下所示 TcpDiscoverySpi spi = new TcpDiscoverySpi(); TcpDiscoveryVmIpFinder ipFinder = new TcpDiscoveryVmIpFinder(true); String hosts[] = new String[]{"ip:48500"} ; ipFinder.s

Lucene 具有最小相似性问题的模糊搜索

我正在使用Lucene.NETVER3.0.3并使用StandardAnalyzer创建索引 我的索引中有一个文本,模糊搜索似乎不起作用 文档中的文本:CUBAEXPORT 正在搜索的文本:CUBAEXPOR 最低相似性:90% 长度(立方导出)=10 长度(CUBAEXPOR)=9 编辑距离=1 相似性=((10-1)/10)*100=90% 据我所知,CUBAEXPOR的比例肯定是90%,但现在是88% 它基于搜索项的长度和索引项的长度中的较小者。因此,由于搜索词的长度为9,因此0.88

Lucene:facet范围取决于返回的结果

我设置了一个工作搜索,在那里我给出了刻面范围,并得到了正确的结果。 问题是,对于价格方面,我需要依赖于返回的结果,所以我无法事先知道范围 示例1:搜索发现4种产品的价格如下:20、30、40、55。因此,我希望这些方面是这样的: 0 - 20 (1) 21 - 40 (2) 41 - 60 (1) 100 - 200 (1) 300 - 400 (1) 示例2:搜索发现了两种产品,价格如下:200400,所以我希望这些方面是这样的: 0 - 20 (1) 21 - 40 (2) 41 - 6

具有相同术语精确、通配符和模糊匹配的Lucene查询

我试图得到Lucene的结果,首先是标题精确,然后是标题通配符,然后是标题模糊,然后是FieldX通配符,然后是FieldX模糊。。。但结果不符合预期顺序(模糊结果更高) 查询: Title:term^3 Title:term*^2 $"Title:term^1.9~ Field1:term*^1.6 Field1:term^1.5~ Field2:term*^1.4 Field2:term^1.3~... 如何使用Lucene获得所需的结果排序?您是否尝试过按结果分数排序结果?示例

关于Lucene评分的问题

我有一个关于Lucene得分的问题。索引中有两个文档,一个包含“我的名字”,另一个包含“我的名字”。当我搜索关键字“我的名字”时,第二个文档列在第一个文档的上方。我想要的是,如果文档包含我键入的确切关键字,那么应该首先列出它,然后再列出其他关键字。有人能帮我怎么做吗。谢谢。第二次尝试回答: Lucene的默认行为应该是你所要求的。 这里的关键因素是分数的一部分——有时长文档的分数低于短文档的分数。有关上下文,请参见。比如说,如果两次点击的长度标准是相同的,那么它们被任意排序 该函数将帮助您了解为

我需要为此更改重建lucene索引吗?

当我只向模式添加一个随机场时,是否需要重建Lucene索引?或者我可以运行一些代码来更新该字段而不重建索引吗 这是我需要添加的字段: 在本例中,Lucene是在Solr上运行的。IIRC您不需要重建索引或运行任何代码来更新随机字段,因为该字段类型实际上没有值,即它的值是根据完整字段名根据需要生成的。谢谢,事实证明是这样的。我的Lucene书还在邮寄中。:)

Lucene是否有HTML分析器/标记器?

我想从html索引文本,在Lucene中,实现这一点的最佳方法是什么? 在Lucene中有什么好的Contrib模块可以做到这一点吗 编辑 最终使用了Jericho解析器。它不创建DOM,并且易于使用 我假设您实际上不想为HTML标记编制索引。如果是这种情况,您可以首先使用从HTML提取文本。然后您可以在Lucene中为文本编制索引。您可能还想看看/Lucene-3.0.3/src/demo,它有一个HTML解析器示例。我建议使用来提取文本,然后使用Lucene。它对我很有用。还有比Tika更好

Lucene 有没有办法从solr中提取所有令牌?

如何从solr中提取所有令牌?不是来自一个文档,而是来自solr中索引的所有文档 谢谢 您可以这样做(此示例被批准用于lucene 4.x索引): IndexSearcher isearcher=newindexsearcher(dir,true); IndexReader=isearcher.getIndexReader(); Fields=MultiFields.getFields(读卡器); Collection cols=reader.getFieldNames(IndexReader.

短语查询:如果找不到任何单词,Lucene可以从查询中跳过单词吗(不是精确搜索)

假设我正在请求[hibernate search]lucene短语。有两个文档满足确切的短语,但是有很多文档使用[hibernate search]lucene。我应该如何构造一个查询,首先显示准确的文档,然后显示没有单个单词的文档([hibernate search]短语)?只是它们:“我的短语”我的短语 对结果进行排序怎么样?我需要将“我的短语”的文档放在第一位,因为它与短语和术语查询都匹配。如果你担心的话,你可以更进一步:“我的短语”^2我的短语。

lucene索引更新策略

我正在为我的应用程序构建lucene web服务器(Java),并期望上游应用程序每秒能对该服务器进行近100次搜索(该服务器将托管在各种物理机箱上,由负载平衡器进行平衡) Data perspective I将拥有近50K个文档(每个文档的大小小于1kb),并且每天会有约500个新文档/更新文档 我想知道在不影响上游扫描过程性能的情况下,每天在500个文档上建立索引的最推荐方法 我不能在我的所有服务器之间使用任何共享位置来共享文件索引,我可以想到几个选项 1) 使用DB索引(JDBC目录)-不

显示Lucene索引的内容

我正在尝试调试Lucene中的索引文档,我需要查看索引的内容,以便准确地查看文档是如何被索引的。据说Luke是这样做的,但是没有任何相关的文档,当我把它指向索引目录时(在其中任何一个目录下,虽然我不知道为什么它不能找出哪一个是正确的),我什么也得不到。确实有一些简单的方法可以做到这一点吗?卢克是一个简单的方法。你运行它,浏览到索引,然后开始比赛。再简单不过了。通过使用Luke的一些特性,也许它会帮助您继续使用它 还有其他的工具,比如,这也是一个很好的工具,但它比Luke更难开始 如果你能提供一些

基于标记化字符串的Lucene范围查询

如果我有一个标记化的字符串,例如“12345 12346 12347”,范围查询会在该字段上工作吗?不确定.net,但在Java中,这会产生奇怪的结果。对于字符串范围查询,Lucene使用string.compareTo(string)。那么比如说, "2".compareTo("10") 结果将是1,这意味着2在词典上大于10。同时,1在词典学上小于10。这就是你想要的吗

elasticsearch Elasticsearch-使用同义词检查查询中是否包含文档

我想构建一个应用程序,其中匹配要求文档中的每个令牌至少包含在查询中一次 请注意,这与标准预期不同。因此,文档现在相当小,而查询可能非常长。例如: 文件: "elastic super cool". 有效的查询匹配将是 "I like elastic things since elasticsearch is super cool" 我设法从弹性搜索中获得匹配令牌的数量(另请参见)。 因此,在上面的示例中,3个匹配(=文档长度)表示查询匹配 但是我怎样才能把它和同义词结合起来呢 假设“酷”的同

Lucene 使用ElasticSearch术语聚合动态创建的bucket构建Kibana直方图

我希望能够结合Kibana术语图的功能(能够根据特定属性值的唯一性创建bucket)和直方图图(根据查询将数据分成bucket,然后根据时间说明日期) 总的来说,我想创建一个直方图,但我只想基于一个查询的结果创建直方图,而不是像在数据库中那样创建多个查询。相反,我希望每个bucket都是根据特定字段的唯一值动态创建的。例如,考虑以下查询返回的数据: {"myValueType": "New York"} {"myValueType": "New York"} {"myValueType": "N

在多JVM读取器中使用Lucene,在单独的JVM中使用IndexWriter

如何在多JVM设计中使用Lucene 例如,我们有一个JVM负责写入索引(因为不能有多个写入器写入同一个索引) 现在我们有400个不同的客户机JVM,它们正试图从索引中读取数据 我已经实现了一个用于写入索引的IndexServer JVM。 并在每个客户机JVM中提供读卡器api,即每个客户机JVM都在打开IndexSearcher/reader以从相同的索引中读取 写入频率为每分钟20K个文档(纯文本行)(500个文件/分钟) 读取频率为每5分钟20K个文档 我们在读者和作者身上都面临着严重的

如何使用Lucene以有意义的方式删除停止词

我正在使用org.apache.lucene.analyzer.en.EnglishAnalyzer删除停止词和词干。然而,当我有一个像“心脏病”这样的短语时,分析器所做的是从短语中间删除“和”,这将使它变成一个无意义的短语(输出为“心脏病”)。我如何处理此问题并仅在必要时删除停止词?仅在必要时?这是什么意思?你指的是什么输出?停止词会被删除,因为它们不是有意义的搜索词,而分析通常只会影响文本的索引形式。它不应该影响搜索结果中返回的存储文本。如果你看一下我在帖子中的示例,你会知道我所说的“如果有

elasticsearch 更重视场的存在性

我正在尝试学习和编写elasticsearch查询。我意识到有一个“exists”字段返回指定字段是否存在的文档。为了了解这一点,我编写了一个简单的查询,我想了解更多信息并使用查询结构 我有一个查询,它只检查至少一个指定字段是否存在。然而,我想给一个领域更多的权重。这是我的疑问: "query": { "bool": { "minimum_should_match" : 1, "should": [ { "exists": { "field": "ge

上一页 1 2 ...  36   37   38   39    40   41   42  ... 下一页 最后一页 共 78 页