Lucene_IT技术博客_编程技术问答 - 「Fatal编程技术网」

Lucene Solr DIH--如何处理已删除的文档？

标签： Lucene Solr dataimporthandler

我正在玩一个Solr支持的Web应用程序搜索，我想最好使用DataImportHandler通过数据库处理与应用程序的同步。我喜欢只检查last\u updated\u date字段的优雅。好东西。然而，我不知道如何用这种方法处理删除文档的问题。在我看来，我有两个选择。当文档被删除时，我可以从客户端向Solr发送一条明确的消息，或者我可以添加一个“deleted”（已删除）标志并将对象保留在数据库中，这样Solr会注意到文档已更改，现在已被“deleted”（删除）。我可以添加一个查询过滤器，该

Lucene:索引中缺少通配符

标签： Lucene lucene.netwildcardindexer

我正在建立一个包含特殊名称的搜索索引-包含！和和&和+和。。。我必须处理以下不同的搜索：我和你我+你但无论我做什么（在索引之前尝试过queryparser转义，手动转义，尝试了不同的索引器…）-如果我与Luke一起检查搜索索引，它们都不会出现（出现问号和@-符号等）背后的逻辑是，我正在对一个实时建议进行部分搜索（字段没有那么大），所以我将其分为“m”和“me”和“+”和“y”以及“yo”和“you”，然后对其进行索引（这样比通配符查询搜索快得多（索引大小不是大问题）所以我需要的是在索引

Lucene Sitecore高级数据库爬虫程序和部分语言Falback

标签： Lucene Sitecore culture

我们在Sitecore安装中实现了ADC和部分语言回退。我们已经确定了一个问题，我们希望其他人已经遇到，可以帮助我们解决这个问题基本上，当在默认语言（全球英语）版本之后创建非默认语言（例如中文）项目版本，并且中文版本“回落”到英文版本时，Lucene crawler不会选择非默认版本。当修改中文版本打破了“退步”时，Lucene拿起了这个项目我想知道是否有一个解决方案或提示，下一步在哪里可以尝试解决这个问题谢谢我知道这是一篇老文章，但我们对此有一个答案和一个修复程序，您可以在sitecor

如何在lucene中组合两个标记器（日本Analyzer和standardanalyzer）

标签： Lucene

我正在使用lucene 4.3.0，希望用英语和日语字符标记文档 An example is like "LEICA S２カタログ（新品）" The StandardAnalyzer "[leica] [s２] [カタログ] [新] [品]" The JapaneseAnalyzer "[leica] [s] [2] [カタログ] [新品]" 在我的项目应用中，StandardAnalyzer在英文字符方面做得更好，例如[s]２] 比[s][2]好。日语分析器在日语

在哪里可以找到Lucene.Net EdgeNGramTokenFilter

标签： Lucene lucene.net

从网上的一篇文章中，我知道Lucene.Net有一个EdgeNGramTokenFilter，名称空间为Lucene.Net.Analysis.NGram。但是，我找不到它的源代码，也找不到dll（是的，我检查了Nuget）在哪里可以找到Lucene.Net的EdgeNGramTokenFilter？您可以在Contrib.Analyzers项目的“Lucene.Net.Analysis.NGram”命名空间中找到它。从NuGet安装包将在您的项目中添加对Lucene.Net.Contrib.

为什么这个Lucene油田没有保存下来，或者还有更多的故事？

标签： Lucene

Lucene 4.8.1-我试图将其归结为一个非常小的示例，仅说明了这个问题我在下面插入了一个文档，其中有一个boost值为0.75的字段。然后我立即将该文档拉回来，提取字段，然后打印出来——boost显示为1.0 public static void main(String[] args) throws IOException, ParseException { // Put a document in with a field with a boost of 0.75 A

Lucene Liferay仅自定义搜索期刊文章的最新版本

标签： Lucene Liferay liferay-6

我写了一个lucene搜索。一切正常，但搜索将返回每篇期刊文章的所有版本。如何对此搜索进行限制，使其只能返回最新版本的期刊文章这是一段搜索代码： ThemeDisplay themeDisplay = (ThemeDisplay) actionRequest.getAttribute(WebKeys.THEME_DISPLAY); HttpServletRequest httpServletRequest = PortalUtil.getOriginalServletReque

elasticsearch Lucene自定义相似性/评分

标签：elasticsearch Lucene similaritytf-idf

我正在寻找Lucene（Java）中的相似性模块，该模块提供基于权重的分数。我知道这很模糊，最好用一个例子来解释 Document 1 ----------- Firstname: Francesca Document 2 ----------- Firstname: Francisco 使用双变音和改进的Soundex语音算法分析Firstname字段。在索引阶段因此，反向索引如下所示（最后两项分别由Doublemetaphone和精炼Soundex给出）：现在，我的搜索查询如下所示：

elasticsearch 如何在elasticsearch中获取文档中短语的频率？

标签：elasticsearch Lucene phrase

我想获得特定文档中短语（术语序列）的频率示例：考虑以下由elasticsearch编制索引的文档： doc1:一二三一二 doc2:三一二四我想发出一个查询，指定一个短语和一个文档，并给出该文档中短语的频率；e、 g: 短语频率（doc1，“一二”）=2 短语频率（doc2，“一二”）=1 我知道必须使用“span near queries”来完成这项工作，但无法找到一种方法来获取频率（而不是文档的排序列表）感谢您的帮助是Elasticsearch中用于span查询的文档。谢谢！但

Lucene 如何从NUTCH数据库（CrawlDB）中删除/删除未蚀刻的URL

标签： Lucene nutch

我想使用nutch抓取新的URL列表，但有一些未抓取的URL可用： bin/nutch readdb -stats WebTable statistics start Statistics for WebTable: retry 0: 3403 retry 1: 25 retry 2: 2 status 4 (status_redir_temp): 5 status 5 (status_redir_perm): 26 retry 3: 1 status 2 (

如何创建更复杂的Lucene查询字符串？

标签： Lucene full-text-searchlucene.netinformation-retrieval

这个问题是这个问题的衍生问题。我的调查是双重的，但因为两者都是相关的，我认为把它们放在一起是个好主意如何以编程方式创建查询。我知道我可以开始创建字符串并使用查询解析器解析该字符串。但是，当我从其他资源收集零碎的信息时，有一种编程方式可以做到这一点 Lucene查询的语法规则是什么 --编辑-- 我将给出一个查询的需求示例：假设我有5个字段：名字姓年龄地址一切所有字段都是可选的，最后一个字段应搜索所有其他字段。我检查每个字段，看它是否为NullOrEmpty（）。如果不是，

Lucene 卢森的葡萄酒是什么？

标签： Lucene Compression

我想知道Lucene的葡萄酒是什么我读了这篇文章，但我不明白它是什么，Lucene在哪里使用它？为什么Lucene不使用简单整数或大整数谢谢。VInt指的是Lucene的可变宽度整数编码方案。它在一个或多个字节中编码整数，只使用每个字节的低位七位。除最后一个字节外，所有字节的高位都设置为零，这是长度的编码方式。VInt非常节省空间。理论上，它可以节省多达75%的空间在Lucene中，许多结构都是整数列表。例如，给定术语的文档列表、术语在文档中的位置（和偏移量）等。这些列表构成了lucen

打开存储在hdfs中的lucene索引

标签： Lucene Hadoop hdfs

如何读取通过HDFS存储的lucene索引目录，即如何获取通过HDFS存储的索引的IndexReader。IndexReader将在映射任务中打开类似于：IndexReader=IndexReader.open（“hdfs/path/to/index/directory”）谢谢， Akhil如果你想打开一个存储在HDFS中的Lucene索引进行搜索，那你就太倒霉了。顺便说一句，没有允许搜索操作的HDFS目录实现。出现这种情况的一个原因是，HDFS针对大数据块的顺序读取进行了优化，而不是Luc

合并因子，minMergeDocs，Lucene

标签： Lucene

我无法理解mergefactor和minMergeDocs之间的区别例如，我想索引10000个文档，其中100个文档填满了我的RAM缓冲区，所以Lucene将把这100个文档作为一个文件写出。现在，如果我将mergefactor设置为5，当第五段写入磁盘时，Lucene将把所有现有段合并为一个段，依此类推 1.minMergeDocs在这方面有什么优势？如果我有mergefactor=5和minMergeDocs=10——mergefactor是否优先于minMergeDocs 2。另外，当L

Lucene Solandra vs.ElasticSearch

标签： Lucene Cassandra elasticsearchscalablesolandra

我们正在使用Cassandra数据库，该数据库将存储PB范围内的数据。我们正在考虑使用ElasticSearch或Solandra，但我们正在愉快地决定使用哪一种。我想知道我们的数据库是不是太大了。我知道ElasticSearch是可伸缩的，但在多大程度上——特别是在Cassandra数据库中另一方面，Solandra是为Cassandra设计的，具有很高的可扩展性，但又能扩展到什么程度呢两者都是可伸缩的，但使用Cassandra的可伸缩性如何？Solandra在10 TB的范围内使用你是

如何使用AmazonS3实现LuceNet

标签： Lucene Amazon S3 lucene.net

我试图在我的应用程序中使用AmazonS3实现Lucene来存储我生成的索引，但是我可以找到任何代码示例或清晰的文章。因此，任何有这方面经验的人，请给我一个指导或一些可以帮助我开始的东西有一个类似的问题。这是一篇有趣的文章，介绍了最大的Solr服务提供商Lucid Imagination如何在EC2上部署Solr实现。这是他们的搜索即服务解决方案如果您没有绑定到S3，则可以使用名为的专用Solr云服务此外，如果您的开发项目需要完整的ALM/CI解决方案，则中包含一个WebSolr模块。这

Lucene Umbraco检查：如何在嵌入式内容数据类型中搜索？

标签： Lucene Umbraco

我使用的是嵌入式内容数据类型(http://farmcode.org/post/2011/01/20/Presenting-a-new-Umbraco-data-type-Embedded-Content.aspx)而且我似乎找不到一种方法来正确使用Umbraco-Examine在嵌入式内容数据类型中进行搜索返回的搜索结果对象将嵌入的内容类型表示为一个字符串，所有字段混合在一起，而不是原始xml格式有没有办法让我可以搜索嵌入内容类型中的各个字段？这个问题在上得到了回答（如上面的评论所述），推

Lucene中的控制合并段

标签： Lucene Merge segment

我想在Lucene中控制段合并。更准确地说，我有一个每段缓存，每次有一个合并，我想有一个“回调”，并检查哪个段将被合并我查看了IndexWriter代码，看起来它是IndexWriter的内部操作。我也不想攻击IndexWriter。我看到一个名为MergeScheduler的接口。实现这个类的最佳方案是什么你知道怎么做吗？提前谢谢也许您可以将正在使用的子类化（默认为TieredMergePolicy），并通过覆盖findMerges方法拦截要合并的段，如下所示 MergePolicy.M

Lucene拼写检查器更喜欢排列或特殊计分

标签： Lucene lucene.netspell-checking

我正在使用Lucene.NET 3.0.3 如何使用给定函数修改拼写检查器（或一般查询）的评分具体地说，我希望拼写检查器对搜索词的排列结果的评分高于其他建议，但我不知道应该在哪里这样做我也会接受一个回答，解释如何使用普通查询进行此操作。我有这个函数，但我不知道把它变成一个查询、一个过滤器或其他东西是否更好我认为最好的方法是在SpellChecker对象中使用定制的比较器请在此处查看默认比较器的源代码：非常简单的东西，如果你已经有了比较两个字符串的算法，应该很容易扩展然后您可以使用设

Lucene 如何在luncene中显示内容的评分区域？

标签： Lucene

当我为一些文档编制索引时，我可以添加几个字段，例如contents。但是现在，我想显示的是包含查询词的部分内容，而不是整个内容，就像普通的搜索引擎一样。如何存档？可用于查找和标记查询结果字段中文本的最佳匹配部分（很像谷歌显示粗体文本以匹配片段的方式）要使用它，您需要包括contrib区域的lucene-highligher-x.x.x jar 这篇博文可能会帮助您开始使用它：请看这个问题：谢谢您的建议。我试过了，但它返回“FieldWeights，tf，idf，fieldNorm”类似的东西，

带查询的Lucene LongField精确搜索

标签： Lucene long-integer

如何使用TermQuery精确匹配LongField 考虑屏幕上的警告 BytesRef ref = new BytesRef(); NumericUtils.longToPrefixCoded( 12L, 0, ref ); Query q = new TermQuery( new Term( fieldname, ref ) ); 注意：此API仅供内部使用，在下一版本中可能会以不兼容的方式更改。我注意到这对一些人来说是个问题，因为NumericUtils API确实从到发生了重

Lucene 如何识别文本中的标记

标签： Lucene

我试图在文本中识别预定义的标记标签可能是 *外科手术手妇科学眼科学手外科节肢动物传播的病毒性发热和病毒性出血热等我现在要做的是，从文本中检索术语向量，并根据标记索引运行单个向量。我有以下问题如果我使用带有通配符的关键字查询，我会得到很多不相关的点击。这篇课文包含了约翰的成长。。。。将匹配“节肢动物传播的病毒性发热和病毒性出血热” 如果我使用短语搜索，这个问题就消除了，但是现在标签“手外科手术”将不匹配，因为这些术语只包含单个单词我只是想知道是否有更好的方法来解决这个问

Lucene 非数值范围搜索

标签： Lucene elasticsearch

我正在索引日志，包括级别，我已经厌倦了对“INFO或DEBUG或TRACE”进行串接查询，是否有任何特定于ElasticSearch或Lucene的方法允许您指定非数字的范围，以便我可以在Lucene中执行类似“level:>=INFO”？的操作您可以这样做： level:[DEBUG TO TRACE] 但这将启用按字母顺序介于这两者之间的任何级别（包括它们，使用{}排除）更新：可能需要一段时间才能将其添加到Solr中（如果已添加），但这将是您需要的信息或调试或跟踪是唯一有意义的方法。这两

lucene搜索不起作用

标签： Lucene

我正在使用Lucene进行用户搜索。对于索引，我有以下代码 private void internalAddUser(User user) throws IOException { Document document = new Document(); document.add(new Field("login", user.getLogin(), Field.Store.YES, Field.Index.NOT_ANALYZED)); document.add(new

Lucene 模式_replace中不区分大小写的replace

标签： Lucene elasticsearch

我有一个替换令牌筛选器（）如何使匹配不区分大小写？您可以在分析器中包含小写过滤器。例如： settings: { analysis: { tokenizer: {pattern_tokenizer: {... define your tokenizer here }} analyzer: { tokenizer: 'pattern_tokenizer', filter: ['lowercase'], ....other details.

Lucene ElasticSearch中缺失空格的匹配

标签： Lucene elasticsearch

我想在ElasticSearch中索引一些文档，其中包含一个名为name的文本字段。我目前使用snowball分析器为名称编制索引。但是，我希望匹配包含空格和不包含空格的名称。例如，名为“Home Depot”的文档应与“homedepot”、“Home”和“Home Depot”匹配。此外，使用“埃克森美孚”等单字名称的文件应与“埃克森美孚”和“埃克森美孚”匹配我似乎找不到正确的分析器/过滤器组合来实现这一点。在这种情况下，您可能需要查看ngram类型的解决方案 Ngram的功能如下：

忽略的XML元素显示在eXist db'；s lucene搜索结果

标签： Lucene Xquery exist-db

我正在用eXist db构建一个应用程序，它可以处理TEI文件并将它们转换成html 对于搜索功能，我将lucene配置为忽略一些标记 <collection xmlns="http://exist-db.org/collection-config/1.0" xmlns:teins="http://www.tei-c.org/ns/1.0"> <index xmlns:xs="http://www.w3.org/2001/XMLSchema"> &

Lucene Solr-存储数值的偏移量和位置

标签： Lucene Indexing offsetnumericsolr4

我只是想知道是否有可能在Solr中存储int、float和double类型的数值的偏移量、位置和频率。对于术语，我们有可以设置偏移量的字符和令牌属性，但对于数值，当存储为Trie或Sortable时，是否可以为其设置偏移量或属性我曾尝试考虑过有效载荷和有效载荷过滤器，但无法理解哪种过滤器最适合于此，也无法理解是否可以对有效载荷值执行范围查询否则，也可以使用IndexOptions来设置：DOCS_和_FREQS_和_POSITIONS_和_偏移到字段。但同样不确定这是否适用于术语/字符以外的

更有可能的是，在Lucene.Net中将同一文档相互比较时，不会返回100%的得分率

标签： Lucene lucene.netmorelikethis

我不知道我给Lucene.net打的电话是否正确。我试图调用MoreLikeThis函数来比较一个文档和它本身，我只得到了0.3174651的分数，我想我应该得到1.0的分数。我期待的是错误的期待吗这是我的代码： int docId = hits[i].Doc; var query2 = mlt.Like(docId); TopScoreDocCollector collector = TopSco

elasticsearch 如何在elasticsearch中匹配包含连字符或尾随空格的查询词

标签：elasticsearch Lucene amazon-elastic-beanstalk

在elasticsearch映射的mapping char_filter部分，它有点模糊，我很难理解是否以及如何使用charfilter analyzer：基本上，我们存储在索引中的数据是类型为String的ID，如下所示：“00839234200”。当查询词实际上包含连字符或尾随空格时，我希望能够搜索这样的ID：“008392342-000” 您建议我如何设置分析仪？目前，这是该字段的定义： "mappings": { "client": { "properties

与Lucene/FTS搜索Alfresco共享站点成员

标签： Lucene full-text-search Alfresco alfresco-share

是否可以与lucene或fts Alfresco搜索Alfresco共享站点成员？例如，我想找到所有姓氏为“Smith”的站点成员此外，是否可以搜索对网站文件夹或文档具有特定权限的用户？我不确定您是否可以使用lucene进行搜索，但如果您想查找用户，请使用下面的webscript 如果您在下面的url中看到，则urlnf=NameOfUsers参数指定用户的名称。如果您未指定nf参数，它将返回所有用户有关上述webscript的更多详细信息，可以使用下面的URL。您不能直接使用Lucen

elasticsearch 是否按位置顺序返回Elasticsearch突出显示结果？

标签：elasticsearch Lucene highlight

我目前正在使用elasticsearch在我的查询中提供的功能。然而，有一件事我不太清楚，那就是结果是如何排序的。我更希望他们在段落中出现的顺序是，而不是重要性/分数。这样我就可以将它们与…按与原始文档中相同的顺序连接起来（类似于Google结果）。然而，他们目前正在返回一些基于最佳匹配的加权顺序有没有一种方法可以做到这一点，而不必在看到突出显示结果后在现场进行额外的后处理我看到有一个突出显示的“订单”：“得分”选项，但似乎没有任何其他文档化的选项来更改退货订单。（顺便说一句，我不理解默认顺

Lucene Cloudant搜索查询索引函数

标签： Lucene cloudant

我找不到太多关于如何正确定义索引函数的文档，这样我就可以对我需要的信息进行全文搜索我已经使用Alchemy API将“实体”json添加到我的文档中。例如，我有一个包含以下内容的文档： "_id": "redacted", "_rev": "redacted", "session": "20152016", "entities": [ { "relevance": "0.797773", "count": "3", "type": "Organ

Lucene Hibernate索引空间实体场景

标签： Lucene jpa-2.0spatialhibernate-searchhibernate-spatial

班级员工，班级办公室，班级办公室员工班级办公室是一个空间实体，可以按预期搜索并返回结果 Office Employee之间的多个关系映射到类OfficeEmployee 现在我需要在一定范围内对某些人执行搜索。换句话说，我必须检查范围内的办公室以及存在于这些办公室的员工，即搜索OfficeEmployee实体所有这三个类都编制了索引公务员班级办公室 @JsonIgnoreProperties（ignoreUnknown=true） @Spatial（name=“office\u loca

elasticsearch 如何过滤Kibana中的特定单词（弹性）

标签：elasticsearch Lucene Kibana

为了便于访问，我使用Kibana（web界面）进行弹性搜索。我在每行中都有这4种类型的句子，以随机顺序重复： N'Some Name'在找p'Some Name' N'Some Name'正在寻找N'Some Name' p'Some Name'正在寻找N'Some Name' p'Some Name'正在寻找p'Some Name' 我试着只过滤第一个和最后一个字母。例如，我想查看以P'开头，以N'结尾的字母记录。然后我将尝试以下查询： "^P*" AND "w

自定义Lucene索引在Sitecore'；s索引管理器

标签： Lucene Sitecore sitecore7sitecore7.2

我的任务是在基于Sitecore（7.2版）的网站上实现内容搜索。出于同样的原因，我计划使用Lucene搜索提供商，因为它与Sitecore捆绑在一起，而且我们的搜索要求似乎并不详尽，我无法尝试使用Solr。我们希望用户能够从主站点搜索驻留在Sitecore中的内容列表。解释如何做到这一点的文档和博客是粗略和不完整的我使用以下博客作为参考点：在App_Config/Include文件夹中添加索引配置文件后，我希望在Sitecore的索引管理器中看到新的索引。然而，我没有注意到同样的情况

Lucene 使用Hibernate搜索完成事务时的性能问题

标签： Lucene hibernate-search

我们最近将HibernateSearch3.4更新为5.5.2。在新版本中，我们在添加一个新的索引实体时遇到了严重的性能问题，该实体通过外键连接到许多其他实体，这在HS 3.4中是没有发生的。在使用VisualVM进行评测时，我发现大部分性能损失都在org.hibernate.search.backend.impl.WorkQueue.prepareWorkPlan（）方法中，该方法是在提交添加新实体的事务期间调用的。最后，在调用堆栈的深处，我可以看到，在将lucene的新工作排入新实体队列的

Lucene标记器-包含空格

标签： Lucene Sitecore sitecore8sitecore8.1

我们有一个标记特定数据的应用程序。我的问题是，我有一个逗号分隔的字段需要标记，但不是在空格上。例如： "Age 6, Age 7, Age 8" 变成 Age 6 Age 7 Age 8 我需要 Age 6 Age 7 Age 8 我是否有办法仅更改某些字段的默认行为我目前拥有的配置设置： <field fieldName="SizeGroup" storageType="YES" indexType="TOKENIZED" vectorType="NO" boost="1f"

elasticsearch 查询字符串查询-两个字段必须匹配

标签：elasticsearch Lucene

我正在使用ElasticSearch 5.1，我想知道是否有可能构建查询字符串查询，它将匹配所有字段field_1和field_2相同的记录在执行查询时，我不知道它们存储了什么值。我所知道的只是映射，它是关键字例如，数据： {"id": 1, "field_1": "foo", "field_2": "foo"} {"id": 2, "field_1": "foo", "field_2": "bar"} 当我执行这样的查询时，我只想得到id为1的记录，因为field\u 1===field

GraphDB Lucene连接器-如何编辑

标签： Lucene graphdb

有没有办法在GraphDB的工作台中编辑现有的Lucene连接器？提供的按钮仅用于重建、复制和删除连接器。您可以使用“复制连接器”编辑现有的连接器此功能复制现有连接器的创建参数（可以修改这些参数）并创建新连接器

我从哪里开始学习Lucene.NET Solr Hadoop和MapReduce？

标签： Lucene Solr lucene.net Hadoop Mapreduce

我是一名.NET开发人员，我需要学习Lucene，这样我们就可以运行一个非常大规模的搜索服务，删除最终用户无法访问的条目。（即用户可以搜索具有3级或更高许可级别的所有文档，但不能搜索2级或1级许可级别的文档）我从哪里开始学习，应该考虑哪些产品？老实说，我有点不知所措，但我决心把一切都弄清楚。。。最后， < P>如果你想要一本涵盖Lucene所有基本知识的书，请考虑“”。即使代码示例是Java，您也可以轻松地将它们移植到.NET。当然，网络上也有大量的资源，比如SO和Lucene邮件列表，它们应

Lucene 将整个Solr索引加载到Ram中

标签： Lucene Solr

我知道有一个帖子是关于为lucene将索引加载到Ram中的但我真的需要它的Solr，以提高搜索速度。任何指针都会有帮助：）谢谢我觉得这不是个好主意。这就像是在问。Solr在Lucene之上实现了一些非常高效的缓存机制，还有文件系统缓存如果Solr存在速度问题，这不是解决方案。请发布另一个问题，详细说明您的问题，并让我们向您推荐适当的解决方案另请参见：我有3600万个条目日志文件，每个条目都有5个小字段。我想搜索它们，因为Traditional DB在索引和搜索它们时失败，所以我想到了S

Lucene 聚合更像这样的结果就是RavenDB

标签： Lucene Ravendb morelikethis

我一直在尝试使用更像这个捆绑包的方法，将一组文档按照名为“backyardigans”的字段中的匹配数排序，与一个关键文档进行比较。这一切都按预期进行但我想做的是按3个单独字段的匹配数加在一起排序一个示例记录是： var data = new Data{ backyardigans = "Pablo Tasha Uniqua Tyrone Austin", engines = "Thomas Percy Henry Toby", pigs = "Daddy P

Lucene 4.0示例代码

标签： Lucene

我无法让它与Lucene 4.0及其新功能一起工作。。。谁能帮帮我吗我从网上抓取了一堆html文档。现在我想数一数每一份文件中不同的字数这就是我在Lucene 3.5中所做的（对于单个文档，为了获得所有文档，我循环所有文档…每次都使用一个只包含一个文档的新RAMDirectory）：我怎样才能用Lucene 4.0做到这一点不过，我更喜欢使用FSDirectory而不是RAMDirectory来实现这一点；我想如果我有相当多的文档，这会更有效谢谢和问候 C.使用字段/术语API 请特别

Lucene 增强文档与通配符搜索一起工作吗？

标签： Lucene Ravendb

给定以下索引定义，当使用诸如Content:（Morel*）之类的查询时，是否会应用增强功能我已经向数据库中添加了两个文档，一个是Article类型，另一个是Response类型。两者都具有相同的标题，正文和标签。当我在Raven Studio中对索引运行上述查询时，两个文档返回时都带有相同的$Temp:Score AddMap<Article>(docs => from doc in docs select new

使用Lucene实现Sitecore搜索

标签： Lucene Sitecore sitecore6

我正在尝试让Lucene search与我的Sitecore安装一起工作。我已尝试遵循中列出的示例（第2.1节至第2.2.2节）添加LuceneSearchBox并单击控件的搜索按钮后，我收到以下错误： Server Error 500 - Internal server error. There is a problem with the resource you are looking for, and it cannot be displayed. 这是地址栏中显示的内容，如果它提供

Lucene Ravendb检索集合中的所有文档以进行报告

标签： Lucene Ravendb

我需要从集合中检索所有文档以将其转储到Excel文件使用这个似乎有效 var luceneQuery = Session.Advanced.LuceneQuery<Test.ReduceResult>("Test/ByTestData"); var enumerator = Session.Advanced.Stream(luceneQuery); var obj = new List<Test.ReduceResult>();

elasticsearch 按组列出的热门聚合

标签：elasticsearch Lucene

我正在使用top_hits_聚合来获取用户上次访问的文档。我想根据top_hits_聚合的结果进行分组返回的样本行： { "lastvisited_users": { "buckets": [ { "top_user_hits": { "hits": { "hits": [ { _source: {"c": "s"}}, { _source: {"c": "s,b"}

在lucene中使用boost对Cloudant搜索索引性能的影响

标签： Lucene cloudantboosting

我试图找到boosting在cloudant搜索索引中的工作原理。i、 e，如果我想通过单词“some text”进行搜索，并将“some”的升幅增加到4，将“text”的升幅增加到1。is Cloudant将首先搜索包含“some”的文档，然后在第一次搜索返回的文档中搜索“text”。或者它将同时搜索“some”和“text”并计算基于相关性的匹配如果您要求Cloudant执行搜索操作并使用boost运算符“^”，则将使用您提供的boost数计算每个文档的相关性分数。例如，搜索查询： q=so

Lucene查询时间提升文化代码

标签： Lucene lucene.net Kentico

我正在使用与Kentico CMS打包的Lucene.Net实现。我们正在索引的站点有各种语言的文章。如果用户正在查看网站的日文版本（例如）并运行“VPN”搜索，我们希望他们首先看到关于VPN的日文文章，但也能在结果中看到其他语言文章我试图通过提高_culture字段的查询时间来实现这一点。因为我们使用的是标准分析器（真的不想改变这个），而标准分析器将连字符视为空白，所以我想我应该尝试在用户的查询中添加“（_culture:jp）^4”。正如您可以从Luke工具的解释输出中看到的，这并没有对字