Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene 朗讯搜索全部？用QueryParser

标签： Lucene lucene.net

这是我的部分代码。我不想在desc中搜索文本，而是想搜索所有内容（desc、title、example等）。我该怎么做？我是否进行另一个字段调用all并将每个字段复制到其中？我可以做一些类似于“”、null或“*”的操作来表示全部搜索它们吗？（我每试一次都没有结果）如何使用文本搜索所有字段 public static List<Pair<long, float>> Search(string text) { var searcher = new IndexSea

Lucene 如何在Solr中进行多边形空间搜索？

标签： Lucene Solr geospatialsolrnet

我们在Solr.NET中使用Solr 3.3，我们在文档中添加了一个动态的“location\u p”位置类型字段，现在我们需要进行空间搜索的能力我已经得到了半径搜索（从给定点的距离）这样工作 {!geofilt sfield=location_p pt=33.882518712472255,-84.05531775646972 d=1.7} 现在，我们需要能够进行多边形查询，以获取给定点集内具有“location_p”字段的所有文档（类似于的多边形搜索功能）这与BBox查询过滤器不同，因

Lucene-始终需要提供字段吗？

标签： Lucene Indexing field

我想知道，在lucene索引数据之前，是否总是需要向lucene提供现场数据？或者是否有任何选项可以将非现场数据推送到索引。假设我有一个文本文件，其中包含没有字段信息的文本，需要对其进行索引谢谢 WajihLucene的行为很像传统的数据库，您需要定义一个模式。如果不指定文本应该放在哪个表的哪个列中，则无法将文本文件放入数据库。同样，您可以创建一个包含单个字段（如text）的模式，并将所有文本文件内容放入其中

Sitecore&x2B；Lucene+；QueryOccurance.不应返回所需的结果

标签： Lucene lucene.net Sitecore sitecore6

我正在使用Alex Shybas Advanced DatabaseCrawler，它工作得很好。。。几乎。。。我使用的是一个汽车销售应用程序，在该应用程序中，您可以使用以下值搜索汽车模型制作燃料里程价格年份（注册日期）我有多个数字范围查询： -1000-0（这是针对那些不想在线获取价格的经销商。他们将价格写为-1）自下而上（10000-20000）这是我想要排序的两者都在同一个numeriRangeSearchParam（）中，请参见下面的代码。问题在于Sitecore.

Lucene elastich搜索在查询中缺少筛选器

标签： Lucene elasticsearch

这是我第一次使用'missing'参数，我不确定我是否做错了什么，因为我没有得到我所期望的有人能告诉我缺失的条件是否正确地集成在这个查询中吗？它应该创建5个面，每个面只计算decimallatude字段“未在索引中设置”或其值为空的事件 curl -XGET http://my_url:9200/idx_occurrence/Occurrene/_search?pretty=true -d '{ "filter": { "missing": {

Lucene 如何配置Hibernate搜索以查找带有重音的单词

标签： Lucene hibernate-search

我需要在一个使用Spring（4.0.2）/Hibernate（4.3.1）/MySQL实现的网站上实现一个全局搜索。我已经决定为此使用Hibernate搜索（4.5.0）这似乎很好，但只有当我搜索一个精确的模式时假设我在索引字段上有以下文本： “卡布奇诺和洛博茂的历史” 1）如果我搜索“história”或“lobo mau”，查询将检索相应的索引实体，正如我所期望的那样 2）如果搜索“historia”或“lobos maus”，则搜索不会检索实体据我所知，应该可以将Hiberna

Lucene solr搜索字段不存在的文档'；不存在

标签： Lucene Solr lucene.netsolrnet

如何在SOLR索引中搜索不包含指定字段的文档？-字段：[*到*] 在SolrNet中，使用一个非常昂贵的否定的。一定有更好的办法，但我还没看过。至少，您应该创建一个空字段标记（例如NULL）和索引。@KyleMaxwell当然，在索引时这样做更好。。。如果没有，我认为没有更好的方法在查询时执行。请注意，这只适用于索引字段。对未编制索引的字段执行此操作将返回所有记录。我已经在一个相当大的索引上直接测试了此请求，并且我们可以使用-field:*也没有那么昂贵（使用solr 4.10和docvalue

Lucene 弹性搜索：带有大坡度的span_near在带有小坡度的span_near内

标签： Lucene elasticsearch

您将如何构建一个json Elasticsearch查询，如下所示（英文）：我希望查询返回同时存在biz和buz的文档，以及foo与其中一个单词相邻的文档例如，以下文档应匹配：美食酒吧酒吧，酒吧，酒吧，酒吧以下文档应不匹配：餐饮业福吧商务酒店商务酒吧我的原始解决方案我的第一个想法是使用span_near，第一个子句使用foo术语，第二个子句使用布尔和操作biz和buz。但是，在Elasticsearch中，不能在跨距内使用布尔值，只能在跨距内放置其他跨距。此外，没有

Lucene在其他领域的推进结果

标签： Lucene lucene.net

我正在使用Licene.net 我在索引中有两个字段的文档：文本和标记我需要一个查询，它将在文本字段中搜索一些值，然后通过标记字段提升结果换句话说，我使用文本字段选择文档，并按标记字段对它们进行排序（如果标记字段中有匹配项，则在搜索结果中向上提升该文档）我如何构建该查询？如果您希望有标记的文档比没有标记的文档得分更高，可以将其作为可选的SHOULD子句添加到查询中 BooleanQuery bq = new BooleanQuery(); bq.add(/* your text query

Lucene IndexWriter AlreadySet异常

标签： Lucene indexwriter

我正在尝试创建一个IndexWriter并写入Lucene索引。这是我的密码： public class Indexer { public static Analyzer _analyzer = new StandardAnalyzer(Lucene.Net.Util.LuceneVersion.LUCENE_48); private void WriteToIndex() { var config = new IndexWriterConfig(Lucene

elasticsearch 在elasticsearch的多值字段中搜索单个值时的顺序

标签：elasticsearch Lucene

示例文件： {"id": 1, "categories" : ["A", "C","E"]} {"id": 2, "categories" : ["A", "C"]} {"id": 3, "categories" : ["A"]} {"id": 4, "categories" : ["A"]} 当有人在类别字段中搜索单个值“a”时，我如何确保文档3和文档4的顺序始终高于文档1和文档2，因为它们更接近单个值“a” 我尝试了以下查询： { "query": { "bool":

elasticsearch Hibernate搜索查询从实际数据库而不是弹性数据库索引中获取数据

标签：elasticsearch Lucene hibernate-search

我们正试图在我们的项目中实现弹性搜索。到目前为止，我们能够在ES下创建索引。但问题是在检索时。当我们启动查询以检索数据时，将对实际数据库而不是ES DB索引启动查询 hibernate.cfg <property name="hibernate.search.default.indexmanager">elasticsearch</property> <property name="hibernate.search.default.elasticsearch.hos

elasticsearch 正在查找支持实体上重复数据消除的库

标签：elasticsearch Lucene duplicatesrecord-linkageduke

我将参与一些项目来处理实体重复数据消除。可能包含重复实体的数据集（一个或多个）。在实时中，实体可能以不同的形式表示名称、地址、国家、电子邮件、社交媒体id。我的目标是根据不同实体信息的不同权重确定这些可能的重复项。我正在寻找一个开源的库&最好是用Java编写的由于我需要处理数以百万计的数据，因此我需要关注可扩展性和性能。此外，性能不应为n^2。在下面的发现中，一些使用基于索引的搜索，一些使用Lucene，另一些使用数据分组请把建议倒出来，哪一个更好以下是我目前的调查结果：杜克大学（Jav

elasticsearch 弹性搜索7：获得特定字段的不同点击率

标签：elasticsearch Lucene

我有一个索引，其中_源包含此类字段： createDate : date, fileName: string, status : string, taskName: string, taskType : string ... 我想知道是否有可能为每个不同的taskName获得一次命中（任何命中都可以）通过在taskName上使用聚合，我可以获得所有不同的taskName值，但我会丢失有关taskType的信息我需要一个带有相应任务类型的不同任务名列表谢谢大家! 要包含任务类型的值，您需要

使用Lucene搜索API查找精确匹配

标签： Lucene lucene.net

我正在使用Lucene开发一个公司搜索API。我的Lucene公司指数有2家公司： 1.阿比盖尔·亚当斯国家银行股份有限公司。 2.国家银行公司如果用户在National Bancorp中键入，则只应返回公司2（即National Bancorp），而不应返回公司1。只应返回完全匹配的项。如何实现此功能感谢阅读。您可以使用此字段进行索引和搜索。关键字分析器将仅为整个字符串生成一个标记您可能需要重新考虑您的要求，这取决于我是否正确理解了您的问题。如果我误解了你，请原谅我只是想一想：

无索引查询lucene令牌

标签： Lucene analyzertokencompass-lucene

我正在使用Lucene（或者更具体地说是Compass）在论坛中记录帖子，我需要一种方法来提取讨论背后的关键词。这就是说，我不想索引某人所做的每一个条目，而是希望有一个与特定上下文相关的“关键字”列表，如果条目与关键字匹配并且高于阈值，我会将这些条目添加到索引中我希望能够使用分析器的功能来剥离内容并发挥其魔力，但随后从分析器返回标记以匹配关键字，并计算某些单词的出现次数有没有一种方法可以在不增加索引每个条目的开销的情况下从分析器中获取标记我在想，我必须维护一个RAMDirectory来保存

Lucene.NET-MultiFieldQueryParser构造函数中的版本参数是什么？

标签： Lucene lucene.net

我们在Lucene.NET 2.3代码库中遇到了一个严重的错误。我们正在升级到Lucene 2.9，希望这个错误得到修复升级到最新版本后，我们看到MultiFieldQueryParser构造函数[过时]： [Obsolete("Use the ctor with Version param instead.")] public MultiFieldQueryParser(string[] fields, Analyzer analyzer) 相反，我们将使用接受版本参数的构造函数： pub

Lucene：使用FuzzyQuery在搜索中搜索

标签： Lucene fuzzy-searchpylucene

我需要使用包含大约800万行的索引进行模糊查询。这种查询非常慢，每次比赛大约需要20秒。事实上，在进行模糊搜索之前，我可以使用另一个字段将结果缩小到大约5000次点击。为了实现这一点，我应该能够首先通过“更窄”字段进行搜索，然后在这些结果中使用模糊搜索根据，我唯一要做的是一个BooleanQuery，其中应该要求使用“更窄的”（lucene 3中的boolean子句.execute.MUST）现在我尝试了两种不同的方法： a）使用查询解析器，输入如下： slowner:+缩小文本模糊：模糊文

Lucene按笔划/部首对汉字进行排序

标签： Lucene

有人知道Lucene的“按字段排序”功能是否会按笔划/部首对汉字进行排序，或者是否有办法实现这一功能？我在他们的文档中找不到任何相关的答案。看一看，它描述了如何使用分类顺序。我认为除了“Unicode二进制顺序”之外没有其他选项。对不起，这看起来很有趣，但我不确定如何将其应用于排序？Sort类只允许我指定要排序的字段，但不允许指定任何collator或collationkeyfilter？（对不起，Lucene有点陌生）软件包摘要有一些示例：

如何为网站搜索引擎编写Lucene查询

标签： Lucene Solr search-engine

我计划使用ApacheSolr实现我网站的搜索引擎。我建立了一个搜索索引，其中一个文档是：虚拟战斗机2 执行以下内容的搜索：虚拟的* 按预期返回以“Virtua”开头的所有记录搜索“VirtualFighter 2”将返回一个精确匹配我想搜索“VirtualFighter”以返回结果集中的VirtualFighter 2。但是对VirtualFighter的短语搜索会从结果集中忽略VirtualFighter 2。我无法在短语搜索中使用通配符--“VirtualFighter*”不会返回

Lucene-这是巨大指数的正确答案吗？

标签： Lucene

Lucene是否能够为每个50K的5亿个文本文档编制索引对于单词搜索和10词搜索，这种索引的性能如何我是否应该担心，直接转向分布式索引环境 Saar是的，根据下面的文章，Lucene应该能够处理这个问题：这里有一句话：取决于多种因素，一台机器可以轻松承载500-8000多万个文档的Lucene/Solr索引，而分布式解决方案可以提供数十亿个文档的亚秒搜索响应时间本文深入讨论了如何扩展到多个服务器。因此，如果需要，您可以从小规模开始关于Lucene表现的一个重要资源是Mike McC

Lucene是否使用扩展布尔模型检索？

标签： Lucene information-retrieval

不久前，我遇到了一种类似于向量空间模型的方法，它将布尔检索逻辑与对文档进行排序的能力相结合据我所知，这正是Lucene在文档排名中的工作方式。我说得对吗？它是向量空间模型和布尔模型的组合。签出文档页面： Lucene评分使用信息检索的向量空间模型（VSM）和布尔模型的组合来确定给定文档与用户查询的相关性。通常，VSM背后的思想是，相对于查询项在集合中所有文档中出现的次数，查询项在文档中出现的次数越多，文档与查询的相关性就越大。它使用布尔模型，首先根据查询规范中布尔逻辑的使用，缩小需要评分的文档

Lucene 为分面搜索合并多个分类索引

标签： Lucene facetfaceted-search

我计划更改现有的lucene索引，以使用lucene 3.4.0中引入的新方面不幸的是，文档仍然有点稀疏，因此我无法找到问题的答案：我创建了一个包含800万本书的相对较大的索引，方法是将其划分为几个较小的文档组，为它们创建索引，然后使用IndexWriter.addIndexes将它们合并到一个大索引中这允许在多个线程甚至计算机之间分割工作现在我想在索引中添加faceted搜索功能，但我有以下问题：如何合并/添加/加入LuceneAxonMyWriter创建的几个分类索引？我问了同样的问

使用Lucene查找给定长查询短语的较短索引文本？

标签： Lucene lucene.net

我使用Lucene作为最佳匹配，从用户输入映射到一长串以前的输入，用于分类——到目前为止，这在大多数情况下都非常有效有问题的例子：索引：福特梅赛德斯本田我非常喜欢丰田输入：福特（精确匹配：效果很好）丰田（在较长的索引条目中部分匹配：效果很好）我曾经有一辆梅赛德斯，但现在我没有了（长文本中包含一个短的精确匹配：通常会给出一个长的完全不相关的模糊匹配，或者什么都没有）我想我要寻找的是找到最长的公共子序列，以防它不是前两种情况中的一种——但话说回来，我对Lucene比较陌

Lucene 如何将查询对象分解为其逻辑基本体树？

标签： Lucene lucene.net

说-如果我有疑问 content:table AND propertyfield:now 我怎样才能得到其中两项以便以后进行适当的检查？给你（我使用Java，抱歉；） package stack.lucene；导入junit.framework.TestCase；导入org.apache.lucene.analysis.standard.StandardAnalyzer；导入org.apache.lucene.queryParser.queryParser；导入org.apache.l

lucene：如何添加文档而不重复

标签： Lucene

在我的例子中，插入到lucene索引中的每个文档都有其唯一的ID。当向lucene索引中添加新文档时，如果该文档已存在于索引中，则不应将该文档插入到索引中。如何实施这一战略？我想我应该先用docId搜索文档，如果lucene找不到文档，我就插入它。但是，因为我有3个线程共享唯一要索引的indexWriter，我想应该有一些错误的情况。例如：线程1和线程2正在处理具有相同docId的两个文档，如果线程1搜索docId时未找到任何内容，它会将文档插入索引，但线程2可能会在线程1读取索引后将其文档插

Lucene 查询匹配字段中的所有标记，而不是任何标记

标签： Lucene

对于脚本，我需要将广告标题与lucene索引进行比较。此索引包含几个关键字以及在广告匹配时要采取的操作例如： (keyword,action,new_category,optional) "red volvo","recategorize","cars","red" 我的想法是，我需要根据关键字字段查询整个广告标题。这两个（查询和索引）都是用我自己的分析器分析的，它有词干、小写等我遇到的问题是部分匹配。例如： “我在卖一匹红马”与“红色沃尔沃”相配如果是另一种情况（广告被编入索引，我需

带Queryparser的Lucene NGram标记器

标签： Lucene

我已经为我的项目（NGramTokenizer（Version.LUCENE_44，reader，3，3））创建了用于模糊匹配的自定义三角图分析器——指定令牌大小min3和max 3 在索引期间，我得到了正确的三元标记，但当我在查询期间（由QueryParser）使用相同的分析器时，它的跳过标记少于3个字符范例索引文档-Hi-Rushik 索引三角图-hi_u，i_u，r，rus，ush，shi，hik（使用Luke索引阅读器检查）查询-Hi Rushik AB XYZ 已解析的查询（Qu

elasticsearch Elasticsearch字段名称别名

标签：elasticsearch Lucene

是否可以在elasticsearch中为字段名设置别名？（就像索引名的别名一样）例如：我有一个文档{'firstname'：'John'，'lastname'：'smith'} 我想将“firstname”别名为“fn”…没有直接字段别名功能。但是，您可以在使用映射中的index_name属性编制索引时重命名字段 index_name：将存储在索引中的字段的名称。默认为属性/字段名有关更多信息，请参见此处：您可能可以尝试在索引上创建别名，并在所需字段上使用筛选器。过滤器的编写方式必须确保它

重新加载Lucene建议索引

标签： Lucene

如何存储和重新加载Lucene suggester索引以下是构建建议者索引的方法： def buildAutoCompleteIndex(path:Path, data:List[Map[String,Any]]) :BlendedInfixSuggester = { val directory = FSDirectory.open(path) val autoComplete = new BlendedInfixSuggester(directory, new Stand

elasticsearch 索引刷新间隔在ElasticSearch中是如何工作的？

标签：elasticsearch Lucene

我设置了index.refresh\u interval=-1，这意味着indexReader不会永远刷新，但为什么我在索引一段时间后仍然可以找到一些新文档？是否有其他参数控制索引刷新假设有一个名为maxDocsRefresh的参数，这意味着当新文档达到限制时，IndexReader将自动刷新。但是，问题是可能存在一些无法检索的文档，因为部分文档未达到索引刷新的限制。引用间隔设置为elasticsearch提供了近乎实时的搜索能力下面详细解释了刷新过程中到底发生了什么，以及刷新和刷新之间的区

用于情绪分析的Lucene 5.4.0 API

标签： Lucene classificationsentiment-analysis

使用Lucene 5.4.0 API进行文本情感分析以获得极性分数，我是否可以遵循或解决任何示例或示例代码？也可能使用分类api包提供的不同分类方法？使用a可能是最好的方法你可以看看这个博客，看看哪个博客可以处理这个任务正如您所提到的，您可以使用新的您的答案在本教程中有。谢谢。我会调查的

elasticsearch 带AND&；的弹性查询布尔；或

标签：elasticsearch Lucene

我是新来的。我尝试在sql中执行一个简单的查询： Select * from [movies] where is_adult = false AND (movie_title like '%xxx%' OR genre = 'xxxx') 我能走得更近的地方是： GET /idxsearch/movies/_search { "size": 10, "query": { "bool": { "filter": { "term": {

在Lucene.NET4.8中，需要一个不'；t在点'；上拆分（分隔）单词'；

标签： Lucene lucene.net

我将Lucene.Net 4.8与以下分析器一起使用： private static Analyzer CreateAnalyzer() { return Analyzer.NewAnonymous(createComponents: (fieldName, reader) => { var source = new WhitespaceTokenizer(Lucene.Net.Util.LuceneVersion.LUCENE_48, reader);

带有多个单词短语的Lucene.Net同义词过滤器

标签： Lucene lucene.netsynonym

我正在使用Lucene.net，并试图实现一个同义词过滤器，以便在我的产品数据库中的项目名称不同或拼写不同时提供扩展术语，例如“扳手”>“扳手”或“割草机”>“割草机” 作为测试，我设置同义词映射如下： String base1 = "lawnmower"; String syn1 = "lawn mower"; String base2 = "spanner"; String syn2 = "wrench"; SynonymMap.Builder sb = new SynonymMap.Bu

获取字符串中已找到项的Lucene项向量

标签： Lucene highlightterm-vectors

我试图突出显示字符串中的术语。我的代码沿着字符串搜索，并在索引中查找等价的术语。代码返回找到的术语ok。但是，我想将用户输入的原始字符串返回给用户，并突出显示找到的术语。我使用Lucene 4，因为这是我用来学习Lucene的书。我有一个可怜的尝试来获取术语向量等等，但是它在整个字段中迭代，我不知道如何只获取找到的术语。。这是我的密码：公共类TokenArrayTest{ 私有静态最终字符串索引\u DIR=“C:/ontologys/Lucene/icnpIndex”； //private

elasticsearch Hibernate搜索：Elasticsearch和Lucene产生不同的搜索结果

标签：elasticsearch Lucene hibernate-search

我正在尝试使用SpringDataREST和HibernateSearch为我的REST后端实现一个非常基本的搜索功能。我想允许用户通过向搜索函数传递查询字符串来执行任意查询。为了能够更轻松地在本地运行后端，并避免必须启动Elasticsearch来运行测试，我希望能够在这些情况下使用本地索引我的问题是，与Elasticsearch相比，下面的代码使用本地索引并不能产生相同的结果。我试图将以下代码限制在我认为相关的范围内实体： @Indexed(index = "MyEntity") @An

elasticsearch Elasticsearch 7.5使用什么功能计算默认分数？

标签：elasticsearch Lucene scoring

Elasticsearch 7.5使用什么功能计算默认分数？我在这里找到了一个解释（），但据我所知，它只适用于旧版本，因为在lucene 7.0中删除了查询规范。在lucene 6.X之前，ES使用tf/idf作为其默认评分算法，一旦开始使用lucene 6.X及更高版本，ES就将其更改为BM25 ES 7.5.1使用Lucene 8.3.1，并使用BM25作为默认评分算法有关此更改的公告和其他重要链接的更多详细信息如下： BM25公告： BM25详图和内部构件：- 如何配置不同的评分算法：

Lucene：有没有一种方法可以快速获得查询的估计计数？

标签： Lucene

我知道计算阈值下的总计数不会影响性能。是否有一种有效的方法来获取查询的估计结果计数我可以看到在中有一个单独的#count（）方法。它有多快？我在文档中没有看到任何详细信息，但它似乎返回了准确的结果，而不是估计的结果，因此在大型索引上可能会很慢？关于估计命中率的主题有一个冗长的讨论。它已经有几年历史了，但它可能是您的起点——或者至少为您在问题中提到的JavaDoc注释添加一些背景/上下文。警告：这可能是一个很深的兔子洞（我自己并没有走太远）。

Lucene Localsolr wt=json和fl兼容吗？

标签： Lucene Solr localsolr

我们已经在Solr1.4和Tomcat1.6上运行了LocalSolr2.9.1Lucene空间库。除了一些小问题，一切都很好如果我们指定fl=id或fl=anything和wt=json，那么fl参数似乎被忽略了，因此我们在结果中得到了比我们想要的更多的细节如果我们指定fl=id并省略默认返回xml结果的wt=json，那么我们将返回预期的字段。我们更喜欢使用wt=json，因为结果对我们来说更容易处理，同样的问题也出现在wt=python和wt=ruby上想法？已知问题？解决方法？这看

使用Luke/Indexreader打开时删除Lucene索引

标签： Lucene lucene.netluke

当我的索引程序崩溃时，我正在创建一个lucene索引。该索引器在崩溃之前处理了大约300万个文档，生成了一个14GB的文件。当我在Luke中打开索引时（强制解锁），整个索引都消失了！。噗打开的索引有0个文档，其大小减少到1kb。有没有人经历过这种情况，或者可以提供一个解释（使用Lucene.Net 2.9）很可能，索引代码在崩溃之前从未调用过commit（）。如果不想丢失所有更改，则应调用commit（）everyXadded documents

建立Lucene搜索索引以搜索联系人的最佳方法

标签： Lucene

我正在使用Lucene搜索联系人数据库。所谓联系人，我指的是一个姓名、多个电话号码、电子邮件、地址等。在数据库中，这些显然被划分为单独的字段，甚至是单独的表。我希望能够根据任何字段搜索联系人，例如，我可以键入“John Doe”，Lucene将返回John Doe的联系信息。John Doe也有一个电话号码，我希望能够通过输入该电话号码、地址或电子邮件等来查找他的记录。我不想特别说明我要搜索的字段创建索引时，最好将所有数据合并到单个“数据”字段中，还是将它们分开？除了用于从数据库检索所有附加数

Lucene 基于CouchDB的地理索引分面搜索

标签： Lucene Couchdb geospatial

CouchDB提供了通过Lucene执行分面搜索的能力。我想执行分面搜索，其中一个分面是地理空间的（例如，在lat/long的30公里范围内）这可能吗？如果可能，如何实现？检查这是一个支持地理空间查询/索引的CouchDB分支。检查这是一个支持地理空间查询/索引的CouchDB分支。可能不是一个直接的答案，但您考虑过Solr吗？它提供了一套完整的地理查询。我知道SOLR与CouCHDB不兼容，但是如果这不能在沙发上完成，那么我会考虑其他技术。比如说MongoDB，我认为geo是开箱即用的……也

确保使用lucene时目录处于打开状态

标签： Lucene

我正在尝试搜索我创建的索引： File index = new File("C:/MyIndex"); Directory indexDir = FSDirectory.open(index); StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_36); IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36,

“的确切含义；Slop“；在Lucene SpanarQuery中（或ElasticSearch span_near中的slop）

标签： Lucene elasticsearchproximity

问题1:在Lucene的span aQuery（或ElasticSearch中span_near）中，slop的确切含义是什么？它是分隔两个匹配单词的单词数，还是分隔的单词数加1 例如，假设您的索引文本是：foobar-biz 哪些查询与此文本匹配：“foo biz”~0，“foo biz”~1，“foo biz”~2 我希望第一个不匹配，最后一个匹配。但是中间呢问题2:现在是第二个更复杂的推论问题：如果有两个以上的搜索子句，如何处理slop？它是否适用于每一对子句或任何一对子句例如，假设您

Lucene 索引数值字段中的元数据

标签： Lucene lucene.net

我试图在lucene.net的数字字段中索引一些元数据，但我不知道怎么做。我构建了一个类来查找描述上的度量值，该类以如下形式返回度量值列表：“150{inch}200{mm}”等，我想索引这些值以同时搜索它们，数值和度量单位。我该怎么做？我需要创建一个自定义字段吗谢谢。一些想法（来自Lucene.Net邮件列表）存储转换为公共单位的所有度量单位。如果用户输入的是英尺、米或英寸，请将其转换为常用单位，然后进行搜索为单位类型和度量值存储单独的字段。然后，您可以进行如下搜索：单位：mm和测量值

从Lucene查询中排除精确短语

标签： Lucene

我试图编写一个Lucene查询来返回包含特定单词（“系统”）的文档，但仅当该单词不属于特定短语（“系统问题”）时。我需要在不排除包含较长短语的文档的情况下完成此操作，因为我的许多文档包含“系统”一词，这既是我希望忽略的短语（“系统问题”）的一部分，也是其他地方以下面的数据为例，我想返回文件2，其中在短语“系统问题”之外包含单词“系统”，而不是文件1，其中仅在短语“系统问题”内包含单词“系统”：文件1： “系统问题-foobar” 文件2： “系统问题-系统已关闭” 最简单（但可能不是最方便或

Lucene查询语法中所需运算符的含义

标签： Lucene

我正在学习Lucene查询语法。我有一个如下的查询： black+forest 我的问题是，这个问题是什么意思？这是不是说：给我匹配的词“黑”和“森林”或给我一些与“森林”匹配的词，可能包括“黑色” 我试图理解以下两者之间的区别： +黑色+森林和黑色+森林和黑色+森林感谢您帮助我理解这一点。 +黑色+森林-黑色和森林都是必填项。两者都必须在任何匹配的文档中找到 black+forest-forest是必填项，而black不是。这使得“黑色”一词成为一个应该的条款。最好的匹配通常会同时匹

elasticsearch ElasticSearch跨键/值进行全文搜索

标签：elasticsearch Lucene full-text-search

我正试图找出在我的文档中进行搜索的最佳方式，而现在我有点被卡住了。请记住，我对ElasticSearch是个新手，目前我主要是想看看它是否符合我的需要我的数据集最初由XML文献文件组成。这些文件由标识符组成（例如第1段、第2段……第1册、第2册……第1节、第2节、第4节……[不一定是连续的或实际上是数字的。它们大部分时间是匹配的]）我认为为弹性搜索格式化数据的方式如下所示： "passages": [ {"id": "1.1", "body": "I represent the book

Lucene ElasticSearch索引大小减小，而docs.count增大

标签： Lucene elasticsearch-5segment

我注意到ElasticSearch（5.5.0版）中有一个奇怪的行为，store.size减少，docs.count增加。为什么会发生这种情况 $ curl 'localhost:9201/_cat/indices/index-name:2017-08-08?bytes=b&v' health status index uuid pri rep docs.count docs.deleted store.size pri