我正在玩一个Solr支持的Web应用程序搜索,我想最好使用DataImportHandler通过数据库处理与应用程序的同步。我喜欢只检查last\u updated\u date字段的优雅。好东西。然而,我不知道如何用这种方法处理删除文档的问题。在我看来,我有两个选择。当文档被删除时,我可以从客户端向Solr发送一条明确的消息,或者我可以添加一个“deleted”(已删除)标志并将对象保留在数据库中,这样Solr会注意到文档已更改,现在已被“deleted”(删除)。我可以添加一个查询过滤器,该
标签: Lucene
lucene.netwildcardindexer
我正在建立一个包含特殊名称的搜索索引-包含!和和&和+和。。。我必须处理以下不同的搜索:
我和你
我+你
但无论我做什么(在索引之前尝试过queryparser转义,手动转义,尝试了不同的索引器…)-如果我与Luke一起检查搜索索引,它们都不会出现(出现问号和@-符号等)
背后的逻辑是,我正在对一个实时建议进行部分搜索(字段没有那么大),所以我将其分为“m”和“me”和“+”和“y”以及“yo”和“you”,然后对其进行索引(这样比通配符查询搜索快得多(索引大小不是大问题)
所以我需要的是在索引
我们在Sitecore安装中实现了ADC和部分语言回退。我们已经确定了一个问题,我们希望其他人已经遇到,可以帮助我们解决这个问题
基本上,当在默认语言(全球英语)版本之后创建非默认语言(例如中文)项目版本,并且中文版本“回落”到英文版本时,Lucene crawler不会选择非默认版本。当修改中文版本打破了“退步”时,Lucene拿起了这个项目
我想知道是否有一个解决方案或提示,下一步在哪里可以尝试解决这个问题
谢谢我知道这是一篇老文章,但我们对此有一个答案和一个修复程序,您可以在sitecor
我正在使用lucene 4.3.0,希望用英语和日语字符标记文档
An example is like "LEICA S2 カタログ (新品)"
The StandardAnalyzer "[leica] [s2] [カタログ] [新] [品]"
The JapaneseAnalyzer "[leica] [s] [2] [カタログ] [新品]"
在我的项目应用中,StandardAnalyzer在英文字符方面做得更好,例如[s]2] 比[s][2]好。日语分析器在日语
从网上的一篇文章中,我知道Lucene.Net有一个EdgeNGramTokenFilter,名称空间为Lucene.Net.Analysis.NGram。但是,我找不到它的源代码,也找不到dll(是的,我检查了Nuget)
在哪里可以找到Lucene.Net的EdgeNGramTokenFilter?您可以在Contrib.Analyzers项目的“Lucene.Net.Analysis.NGram”命名空间中找到它。从NuGet安装包将在您的项目中添加对Lucene.Net.Contrib.
Lucene 4.8.1-我试图将其归结为一个非常小的示例,仅说明了这个问题
我在下面插入了一个文档,其中有一个boost值为0.75的字段。然后我立即将该文档拉回来,提取字段,然后打印出来——boost显示为1.0
public static void main(String[] args) throws IOException, ParseException {
// Put a document in with a field with a boost of 0.75
A
我写了一个lucene搜索。一切正常,但搜索将返回每篇期刊文章的所有版本。如何对此搜索进行限制,使其只能返回最新版本的期刊文章
这是一段搜索代码:
ThemeDisplay themeDisplay = (ThemeDisplay) actionRequest.getAttribute(WebKeys.THEME_DISPLAY);
HttpServletRequest httpServletRequest = PortalUtil.getOriginalServletReque
标签:elasticsearch Lucene
similaritytf-idf
我正在寻找Lucene(Java)中的相似性模块,该模块提供基于权重的分数。我知道这很模糊,最好用一个例子来解释
Document 1
-----------
Firstname: Francesca
Document 2
-----------
Firstname: Francisco
使用双变音和改进的Soundex语音算法分析Firstname字段。在索引阶段
因此,反向索引如下所示(最后两项分别由Doublemetaphone和精炼Soundex给出):
现在,我的搜索查询如下所示:
标签:elasticsearch Lucene
phrase
我想获得特定文档中短语(术语序列)的频率
示例:
考虑以下由elasticsearch编制索引的文档:
doc1:一二三一二
doc2:三一二四
我想发出一个查询,指定一个短语和一个文档,并给出该文档中短语的频率;e、 g:
短语频率(doc1,“一二”)=2
短语频率(doc2,“一二”)=1
我知道必须使用“span near queries”来完成这项工作,但无法找到一种方法来获取频率(而不是文档的排序列表)
感谢您的帮助 是Elasticsearch中用于span查询的文档。谢谢!但
我想使用nutch抓取新的URL列表,但有一些未抓取的URL可用:
bin/nutch readdb -stats
WebTable statistics start
Statistics for WebTable:
retry 0: 3403
retry 1: 25
retry 2: 2
status 4 (status_redir_temp): 5
status 5 (status_redir_perm): 26
retry 3: 1
status 2 (
标签: Lucene
full-text-searchlucene.netinformation-retrieval
这个问题是这个问题的衍生问题。
我的调查是双重的,但因为两者都是相关的,我认为把它们放在一起是个好主意
如何以编程方式创建查询。我知道我可以开始创建字符串并使用查询解析器解析该字符串。但是,当我从其他资源收集零碎的信息时,有一种编程方式可以做到这一点
Lucene查询的语法规则是什么
--编辑--
我将给出一个查询的需求示例:
假设我有5个字段:
名字
姓
年龄
地址
一切
所有字段都是可选的,最后一个字段应搜索所有其他字段。
我检查每个字段,看它是否为NullOrEmpty()。如果不是,
我想知道Lucene的葡萄酒是什么
我读了这篇文章,但我不明白它是什么,Lucene在哪里使用它?
为什么Lucene不使用简单整数或大整数
谢谢。VInt指的是Lucene的可变宽度整数编码方案。它在一个或多个字节中编码整数,只使用每个字节的低位七位。除最后一个字节外,所有字节的高位都设置为零,这是长度的编码方式。VInt非常节省空间。理论上,它可以节省多达75%的空间
在Lucene中,许多结构都是整数列表。例如,给定术语的文档列表、术语在文档中的位置(和偏移量)等。这些列表构成了lucen
如何读取通过HDFS存储的lucene索引目录,即如何获取通过HDFS存储的索引的IndexReader。IndexReader将在映射任务中打开
类似于:IndexReader=IndexReader.open(“hdfs/path/to/index/directory”)
谢谢,
Akhil如果你想打开一个存储在HDFS中的Lucene索引进行搜索,那你就太倒霉了。顺便说一句,没有允许搜索操作的HDFS目录实现。出现这种情况的一个原因是,HDFS针对大数据块的顺序读取进行了优化,而不是Luc
我无法理解mergefactor和minMergeDocs之间的区别
例如,我想索引10000个文档,其中100个文档填满了我的RAM缓冲区,所以Lucene将把这100个文档作为一个文件写出。现在,如果我将mergefactor设置为5,当第五段写入磁盘时,Lucene将把所有现有段合并为一个段,依此类推
1.minMergeDocs在这方面有什么优势?如果我有mergefactor=5和minMergeDocs=10——mergefactor是否优先于minMergeDocs
2。另外,当L
我们正在使用Cassandra数据库,该数据库将存储PB范围内的数据。我们正在考虑使用ElasticSearch或Solandra,但我们正在愉快地决定使用哪一种。我想知道我们的数据库是不是太大了。我知道ElasticSearch是可伸缩的,但在多大程度上——特别是在Cassandra数据库中
另一方面,Solandra是为Cassandra设计的,具有很高的可扩展性,但又能扩展到什么程度呢
两者都是可伸缩的,但使用Cassandra的可伸缩性如何?Solandra在10 TB的范围内使用
你是
我试图在我的应用程序中使用AmazonS3实现Lucene来存储我生成的索引,但是我可以找到任何代码示例或清晰的文章。因此,任何有这方面经验的人,请给我一个指导或一些可以帮助我开始的东西有一个类似的问题。
这是一篇有趣的文章,介绍了最大的Solr服务提供商Lucid Imagination如何在EC2上部署Solr实现。
这是他们的搜索即服务解决方案
如果您没有绑定到S3,则可以使用名为的专用Solr云服务
此外,如果您的开发项目需要完整的ALM/CI解决方案,则中包含一个WebSolr模块。这
我使用的是嵌入式内容数据类型(http://farmcode.org/post/2011/01/20/Presenting-a-new-Umbraco-data-type-Embedded-Content.aspx)而且我似乎找不到一种方法来正确使用Umbraco-Examine在嵌入式内容数据类型中进行搜索
返回的搜索结果对象将嵌入的内容类型表示为一个字符串,所有字段混合在一起,而不是原始xml格式
有没有办法让我可以搜索嵌入内容类型中的各个字段?这个问题在上得到了回答(如上面的评论所述),推
我想在Lucene中控制段合并。更准确地说,我有一个每段缓存,每次有一个合并,我想有一个“回调”,并检查哪个段将被合并
我查看了IndexWriter代码,看起来它是IndexWriter的内部操作。我也不想攻击IndexWriter。我看到一个名为MergeScheduler的接口。实现这个类的最佳方案是什么
你知道怎么做吗?提前谢谢 也许您可以将正在使用的子类化(默认为TieredMergePolicy),并通过覆盖findMerges方法拦截要合并的段,如下所示
MergePolicy.M
标签: Lucene
lucene.netspell-checking
我正在使用Lucene.NET 3.0.3
如何使用给定函数修改拼写检查器(或一般查询)的评分
具体地说,我希望拼写检查器对搜索词的排列结果的评分高于其他建议,但我不知道应该在哪里这样做
我也会接受一个回答,解释如何使用普通查询进行此操作。我有这个函数,但我不知道把它变成一个查询、一个过滤器或其他东西是否更好 我认为最好的方法是在SpellChecker对象中使用定制的比较器
请在此处查看默认比较器的源代码:
非常简单的东西,如果你已经有了比较两个字符串的算法,应该很容易扩展
然后您可以使用设
当我为一些文档编制索引时,我可以添加几个字段,例如contents。但是现在,我想显示的是包含查询词的部分内容,而不是整个内容,就像普通的搜索引擎一样。如何存档?可用于查找和标记查询结果字段中文本的最佳匹配部分(很像谷歌显示粗体文本以匹配片段的方式)
要使用它,您需要包括contrib区域的lucene-highligher-x.x.x jar
这篇博文可能会帮助您开始使用它:请看这个问题:谢谢您的建议。我试过了,但它返回“FieldWeights,tf,idf,fieldNorm”类似的东西,
如何使用TermQuery精确匹配LongField 考虑屏幕上的警告
BytesRef ref = new BytesRef();
NumericUtils.longToPrefixCoded( 12L, 0, ref );
Query q = new TermQuery( new Term( fieldname, ref ) );
注意:此API仅供内部使用,在下一版本中可能会以不兼容的方式更改。
我注意到这对一些人来说是个问题,因为NumericUtils API确实从到发生了重
我试图在文本中识别预定义的标记
标签可能是
*外科手术
手
妇科学
眼科学
手外科
节肢动物传播的病毒性发热和病毒性出血热
等
我现在要做的是,从文本中检索术语向量,并根据标记索引运行单个向量。我有以下问题
如果我使用带有通配符的关键字查询,我会得到很多不相关的点击。这篇课文包含了约翰的成长。。。。将匹配“节肢动物传播的病毒性发热和病毒性出血热”
如果我使用短语搜索,这个问题就消除了,但是现在标签“手外科手术”将不匹配,因为这些术语只包含单个单词
我只是想知道是否有更好的方法来解决这个问
我正在索引日志,包括级别,我已经厌倦了对“INFO或DEBUG或TRACE”进行串接查询,是否有任何特定于ElasticSearch或Lucene的方法允许您指定非数字的范围,以便我可以在Lucene中执行类似“level:>=INFO”?的操作您可以这样做:
level:[DEBUG TO TRACE]
但这将启用按字母顺序介于这两者之间的任何级别(包括它们,使用{}排除)
更新:可能需要一段时间才能将其添加到Solr中(如果已添加),但这将是您需要的信息或调试或跟踪是唯一有意义的方法。这两
我正在使用Lucene进行用户搜索。对于索引,我有以下代码
private void internalAddUser(User user) throws IOException {
Document document = new Document();
document.add(new Field("login", user.getLogin(), Field.Store.YES, Field.Index.NOT_ANALYZED));
document.add(new
我有一个替换令牌筛选器()
如何使匹配不区分大小写?您可以在分析器中包含小写过滤器。例如:
settings: {
analysis: {
tokenizer: {pattern_tokenizer: {... define your tokenizer here }}
analyzer: {
tokenizer: 'pattern_tokenizer',
filter: ['lowercase'],
....other details.
我想在ElasticSearch中索引一些文档,其中包含一个名为name的文本字段。我目前使用snowball分析器为名称编制索引。但是,我希望匹配包含空格和不包含空格的名称。例如,名为“Home Depot”的文档应与“homedepot”、“Home”和“Home Depot”匹配。此外,使用“埃克森美孚”等单字名称的文件应与“埃克森美孚”和“埃克森美孚”匹配
我似乎找不到正确的分析器/过滤器组合来实现这一点。在这种情况下,您可能需要查看ngram类型的解决方案
Ngram的功能如下:
我正在用eXist db构建一个应用程序,它可以处理TEI文件并将它们转换成html
对于搜索功能,我将lucene配置为忽略一些标记
<collection xmlns="http://exist-db.org/collection-config/1.0" xmlns:teins="http://www.tei-c.org/ns/1.0">
<index xmlns:xs="http://www.w3.org/2001/XMLSchema">
&
我只是想知道是否有可能在Solr中存储int、float和double类型的数值的偏移量、位置和频率。对于术语,我们有可以设置偏移量的字符和令牌属性,但对于数值,当存储为Trie或Sortable时,是否可以为其设置偏移量或属性
我曾尝试考虑过有效载荷和有效载荷过滤器,但无法理解哪种过滤器最适合于此,也无法理解是否可以对有效载荷值执行范围查询
否则,也可以使用IndexOptions来设置:DOCS_和_FREQS_和_POSITIONS_和_偏移到字段。但同样不确定这是否适用于术语/字符以外的
标签: Lucene
lucene.netmorelikethis
我不知道我给Lucene.net打的电话是否正确。我试图调用MoreLikeThis函数来比较一个文档和它本身,我只得到了0.3174651的分数,我想我应该得到1.0的分数。我期待的是错误的期待吗
这是我的代码:
int docId = hits[i].Doc;
var query2 = mlt.Like(docId);
TopScoreDocCollector collector = TopSco
标签:elasticsearch Lucene
amazon-elastic-beanstalk
在elasticsearch映射的mapping char_filter部分,它有点模糊,我很难理解是否以及如何使用charfilter analyzer:
基本上,我们存储在索引中的数据是类型为String的ID,如下所示:“00839234200”。当查询词实际上包含连字符或尾随空格时,我希望能够搜索这样的ID:“008392342-000”
您建议我如何设置分析仪?
目前,这是该字段的定义:
"mappings": {
"client": {
"properties
是否可以与lucene或fts Alfresco搜索Alfresco共享站点成员?例如,我想找到所有姓氏为“Smith”的站点成员
此外,是否可以搜索对网站文件夹或文档具有特定权限的用户?我不确定您是否可以使用lucene进行搜索,但如果您想查找用户,请使用下面的webscript
如果您在下面的url中看到,则urlnf=NameOfUsers参数指定用户的名称。如果您未指定nf参数,它将返回所有用户
有关上述webscript的更多详细信息,可以使用下面的URL。
您不能直接使用Lucen
标签:elasticsearch Lucene
highlight
我目前正在使用elasticsearch在我的查询中提供的功能。然而,有一件事我不太清楚,那就是结果是如何排序的。我更希望他们在段落中出现的顺序是,而不是重要性/分数。这样我就可以将它们与…按与原始文档中相同的顺序连接起来(类似于Google结果)。然而,他们目前正在返回一些基于最佳匹配的加权顺序
有没有一种方法可以做到这一点,而不必在看到突出显示结果后在现场进行额外的后处理
我看到有一个突出显示的“订单”:“得分”选项,但似乎没有任何其他文档化的选项来更改退货订单。(顺便说一句,我不理解默认顺
我找不到太多关于如何正确定义索引函数的文档,这样我就可以对我需要的信息进行全文搜索
我已经使用Alchemy API将“实体”json添加到我的文档中。
例如,我有一个包含以下内容的文档:
"_id": "redacted",
"_rev": "redacted",
"session": "20152016",
"entities": [
{
"relevance": "0.797773",
"count": "3",
"type": "Organ
标签: Lucene
jpa-2.0spatialhibernate-searchhibernate-spatial
班级员工,班级办公室,班级办公室员工
班级办公室是一个空间实体,可以按预期搜索并返回结果
Office Employee之间的多个关系映射到类OfficeEmployee
现在我需要在一定范围内对某些人执行搜索。换句话说,我必须检查范围内的办公室以及存在于这些办公室的员工,即搜索OfficeEmployee实体
所有这三个类都编制了索引
公务员
班级办公室
@JsonIgnoreProperties(ignoreUnknown=true)
@Spatial(name=“office\u loca
为了便于访问,我使用Kibana(web界面)进行弹性搜索。
我在每行中都有这4种类型的句子,以随机顺序重复:
N'Some Name'在找p'Some Name'
N'Some Name'正在寻找N'Some Name'
p'Some Name'正在寻找N'Some Name'
p'Some Name'正在寻找p'Some Name'
我试着只过滤第一个和最后一个字母。例如,我想查看以P'开头,以N'结尾的字母记录。然后我将尝试以下查询:
"^P*" AND "w
我的任务是在基于Sitecore(7.2版)的网站上实现内容搜索。出于同样的原因,我计划使用Lucene搜索提供商,因为它与Sitecore捆绑在一起,而且我们的搜索要求似乎并不详尽,我无法尝试使用Solr。
我们希望用户能够从主站点搜索驻留在Sitecore中的内容列表。
解释如何做到这一点的文档和博客是粗略和不完整的
我使用以下博客作为参考点:
在App_Config/Include文件夹中添加索引配置文件后,我希望在Sitecore的索引管理器中看到新的索引。然而,我没有注意到同样的情况
我们最近将HibernateSearch3.4更新为5.5.2。
在新版本中,我们在添加一个新的索引实体时遇到了严重的性能问题,该实体通过外键连接到许多其他实体,这在HS 3.4中是没有发生的。在使用VisualVM进行评测时,我发现大部分性能损失都在org.hibernate.search.backend.impl.WorkQueue.prepareWorkPlan()方法中,该方法是在提交添加新实体的事务期间调用的。最后,在调用堆栈的深处,我可以看到,在将lucene的新工作排入新实体队列的
我们有一个标记特定数据的应用程序。我的问题是,我有一个逗号分隔的字段需要标记,但不是在空格上。例如:
"Age 6, Age 7, Age 8"
变成
Age
6
Age
7
Age
8
我需要
Age 6
Age 7
Age 8
我是否有办法仅更改某些字段的默认行为
我目前拥有的配置设置:
<field fieldName="SizeGroup" storageType="YES" indexType="TOKENIZED" vectorType="NO"
boost="1f"
我正在使用ElasticSearch 5.1,我想知道是否有可能构建查询字符串查询,它将匹配所有字段field_1和field_2相同的记录
在执行查询时,我不知道它们存储了什么值。我所知道的只是映射,它是关键字
例如,数据:
{"id": 1, "field_1": "foo", "field_2": "foo"}
{"id": 2, "field_1": "foo", "field_2": "bar"}
当我执行这样的查询时,我只想得到id为1的记录,因为field\u 1===field
有没有办法在GraphDB的工作台中编辑现有的Lucene连接器?提供的按钮仅用于重建、复制和删除连接器。您可以使用“复制连接器”编辑现有的连接器
此功能复制现有连接器的创建参数(可以修改这些参数)并创建新连接器
我是一名.NET开发人员,我需要学习Lucene,这样我们就可以运行一个非常大规模的搜索服务,删除最终用户无法访问的条目。(即用户可以搜索具有3级或更高许可级别的所有文档,但不能搜索2级或1级许可级别的文档)
我从哪里开始学习,应该考虑哪些产品?老实说,我有点不知所措,但我决心把一切都弄清楚。。。最后, < P>如果你想要一本涵盖Lucene所有基本知识的书,请考虑“”。即使代码示例是Java,您也可以轻松地将它们移植到.NET。当然,网络上也有大量的资源,比如SO和Lucene邮件列表,它们应
我知道有一个帖子是关于为lucene将索引加载到Ram中的
但我真的需要它的Solr,以提高搜索速度。任何指针都会有帮助:)
谢谢我觉得这不是个好主意。这就像是在问。Solr在Lucene之上实现了一些非常高效的缓存机制,还有文件系统缓存
如果Solr存在速度问题,这不是解决方案。请发布另一个问题,详细说明您的问题,并让我们向您推荐适当的解决方案
另请参见:我有3600万个条目日志文件,每个条目都有5个小字段。我想搜索它们,因为Traditional DB在索引和搜索它们时失败,所以我想到了S
我一直在尝试使用更像这个捆绑包的方法,将一组文档按照名为“backyardigans”的字段中的匹配数排序,与一个关键文档进行比较。这一切都按预期进行
但我想做的是按3个单独字段的匹配数加在一起排序
一个示例记录是:
var data = new Data{
backyardigans = "Pablo Tasha Uniqua Tyrone Austin",
engines = "Thomas Percy Henry Toby",
pigs = "Daddy P
我无法让它与Lucene 4.0及其新功能一起工作。。。谁能帮帮我吗
我从网上抓取了一堆html文档。现在我想数一数每一份文件中不同的字数
这就是我在Lucene 3.5中所做的(对于单个文档,为了获得所有文档,我循环所有文档…每次都使用一个只包含一个文档的新RAMDirectory):
我怎样才能用Lucene 4.0做到这一点
不过,我更喜欢使用FSDirectory而不是RAMDirectory来实现这一点;我想如果我有相当多的文档,这会更有效
谢谢和问候
C.使用字段/术语API
请特别
给定以下索引定义,当使用诸如Content:(Morel*)之类的查询时,是否会应用增强功能
我已经向数据库中添加了两个文档,一个是Article类型,另一个是Response类型。两者都具有相同的标题,正文和标签。当我在Raven Studio中对索引运行上述查询时,两个文档返回时都带有相同的$Temp:Score
AddMap<Article>(docs => from doc in docs
select new
我正在尝试让Lucene search与我的Sitecore安装一起工作。
我已尝试遵循中列出的示例(第2.1节至第2.2.2节)
添加LuceneSearchBox并单击控件的搜索按钮后,我收到以下错误:
Server Error
500 - Internal server error.
There is a problem with the resource you are looking for, and it cannot be displayed.
这是地址栏中显示的内容,如果它提供
我需要从集合中检索所有文档以将其转储到Excel文件
使用这个似乎有效
var luceneQuery = Session.Advanced.LuceneQuery<Test.ReduceResult>("Test/ByTestData");
var enumerator = Session.Advanced.Stream(luceneQuery);
var obj = new List<Test.ReduceResult>();
我正在使用top_hits_聚合来获取用户上次访问的文档。我想根据top_hits_聚合的结果进行分组
返回的样本行:
{
"lastvisited_users": {
"buckets": [
{
"top_user_hits": {
"hits": {
"hits": [
{ _source: {"c": "s"}},
{ _source: {"c": "s,b"}
我试图找到boosting在cloudant搜索索引中的工作原理。i、 e,如果我想通过单词“some text”进行搜索,并将“some”的升幅增加到4,将“text”的升幅增加到1。is Cloudant将首先搜索包含“some”的文档,然后在第一次搜索返回的文档中搜索“text”。或者它将同时搜索“some”和“text”并计算基于相关性的匹配如果您要求Cloudant执行搜索操作并使用boost运算符“^”,则将使用您提供的boost数计算每个文档的相关性分数。例如,搜索查询:
q=so
我正在使用与Kentico CMS打包的Lucene.Net实现。我们正在索引的站点有各种语言的文章。如果用户正在查看网站的日文版本(例如)并运行“VPN”搜索,我们希望他们首先看到关于VPN的日文文章,但也能在结果中看到其他语言文章
我试图通过提高_culture字段的查询时间来实现这一点。因为我们使用的是标准分析器(真的不想改变这个),而标准分析器将连字符视为空白,所以我想我应该尝试在用户的查询中添加“(_culture:jp)^4”。正如您可以从Luke工具的解释输出中看到的,这并没有对字
上一页 1 2 ...
37 38 39 40 41 42 43 ...
下一页 最后一页 共 78 页