我有一个DIH的工作solr现在我需要添加多行,这是与solr索引文档的一对多关系
TABLE:
ID:int PK
post_id:int FK
name:string
value:text
type:(int|string)
我需要将基于FK(post_id)的所有行插入到具有动态名称的solr文档中,并根据类型转换值
SELECT name,value,type FROM TABLE WHERE post_id='${post_entity.id}';
loop
insert into
我想索引PDF(和其他丰富的)文档。我正在使用DataImportHandler
下面是my schema.xml的外观:
.........
.........
<field name="title" type="text" indexed="true" stored="true" multiValued="false"/>
<field name="description" type="text" indexed="true" stored="true" multi
我在索引中有这些字段
id name genders ages
1 "John Doe and Co." "male male" "18 20"
2 'Mr. and Mrs. Joe Dee' "male female" "25 27"
下面是检索这两行的代码
$min_age = '19'
$max_age = '26';
$ages_query = new Zend_Search_Lu
如标题所说,我遇到了一个困惑的问题。
我已经为我的测试程序建立了一个索引,然后我使用IndexWriter将一个文档添加到索引中。代码是:
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_CURRENT, analyzer);
IndexWriter iwriter = new IndexWriter(directory, config);
Document doc1 = new Document();
doc1.a
我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。到目前为止,我不知道ES能让我们在多大程度上利用其碎片中的Lucene(反转)索引
我们现在正在研究一系列NLP特性——首先是NER
斯坦福NLP上诉
没有插件可以将这两个包一起工作(?)
我还没有深入研究斯坦福NLP。然而,据我所见,
它起作用了
它完全依赖于自己的索引。无论传递给它的对象或类型是什么,
斯坦福NLP正在为它自己编制索引,并从那里开始
这将使系统对同一组文档使用两个不同的索引-
标签: Lucene
text-mininginformation-retrieval
我有一个lucene索引,其中包含具有以下字段的文档:num(IntField)、title(TextField,stored)、contents(TextField,notstored)
我想在此索引中添加一个字段。我尝试了这个方法(在找到documentId后,读写器都打开了,q是我用来查找documentId的查询):
但是,当我试图查询新编辑文档的索引时,似乎找不到它
编辑:在我添加该字段之前,它工作得很好,对于我没有编辑过的其他文档,它仍然有效。您如何再次搜索它?你要重新打开搜索程序吗
我试图在弹性搜索中重命名字段名,下面是示例数据,其中我需要更改部分/所有字段名以及嵌套对象
{
"took": 63,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 1000,
"max_score": 1,
我需要在搜索结果中显示每个类别的文档总数…例如:
岩石(1010)
蓝调(5030)
流行音乐(2209)
:
:
我在某个地方读到,使用TopFieldDocCollector比HitCollector类更有效
根据我的要求,如何使用TopFieldDocCollector类?或者Lucene中是否有其他方法?HitCollector是一个抽象类TopDocCollector和TopFieldDocCollector是该类的实现。它们不可能“更高效”,因为在HitCollector中没有实际的
我有一个包含英文/意大利文帖子的文本文件。我想把帖子读入一个数据矩阵,这样每一行代表一篇帖子,每一列代表一个单词。矩阵中的单元格是每个单词在帖子中出现的次数。词典应包括整个文件中的所有单词或非详尽的英语/意大利语词典
我知道这是NLP常见的基本预处理步骤。我知道编写代码是非常简单的,我想使用一些NLP领域特定的工具,这样我就可以删除停止词等
有人知道可以执行此任务的工具\项目吗
有人提到ApacheLucene,你知道lucene索引是否可以序列化为类似于我需要的数据结构吗?也许你想看看。它是文
对于一种特定的查询类型,我会得到许多具有相同最高分数的文档。每次调用此查询时,我想随机抽取10个文档。因此,进行相同搜索的用户每次都会得到不同的结果。这听起来确实是个糟糕的主意,但实际上是有商业意义的
我现在的想法是从索引中获取所有得分最高的文档,然后从中随机抽取10个
我该怎么做?还有别的办法吗
请注意,我仍然希望高分保持在榜首,只是洗牌。我不想在洗牌中包括较低的分数,也不想将他们排除在列表的底部
非常感谢 Solr/Lucene提供了一个可用于对文档进行随机排序的方法。
由于您对所有文档的分
我的应用程序为每一行生成唯一的id,以便在lucene中编制索引并保存到数据库。
一个问题是,如果有和行具有相同的id,我想更新它,而不是插入新行和索引
如何做到这一点?这正是该方法的目的。第一个参数是索引中必须唯一的术语
比如说,
String id = "42";
Document doc = new Document();
Field field = new Field("id", id, Store.YES, Index.NOT_ANALYZED);
doc.add(field);
i
如何在Lucene中对两个多词短语进行近似搜索。例如,我想找到所有
黑色实验室*黑色拉布拉多犬、黑色拉布拉多犬等,带有5个单词的短语“宠物店”。我应该使用哪种分析仪?建议使用哪种查询解析器?我在Lucene.NET工作。我已经将ComplexPhraseQueryParser从Java移植到了C,但该解析器似乎没有起到作用,或者我只是用错了。我刚刚开始学习Lucene,非常感谢您的帮助。您只需要。您只需要。您可以使用一个:
new SpanNearQuery(
new SpanQuery
我目前有一个Seam组件正在我的会话中。这个组件是
持有一个自定义的“Lucene对象”(私有属性),该对象打开一个Lucene
构造函数中的索引。当我想搜索时,我使用“Lucene对象”
在我使用已经打开的Lucene索引的会话中。
因此,当我想搜索其他内容时,我仍然可以重用已经存在的
打开索引
但是现在,我没有一些Java逻辑来关闭阅读器。不应该
这可以在一些方法中完成,比如destroy()方法(由
(虚拟机)?
或者如果我不手动关闭读卡器可以吗
谢谢,
Jochen你不应该让lucene
是否有一种方法可以获得“前10个”方面,但同时获得我们可以创建的所有可能方面(在这种情况下,我们文档中的所有不同王国)
我知道我可以将“大小”增加到一个非常大的数字,但是它会生成一个非常大的JSON,处理成本可能会更高
一个简单的方面
"facets" : {
"kingdom": {
"terms": {
"field": "kingdom",
"size": 10
}
}
提前感谢json响应
如何删除Lucene中给定字符串“这是化学方向”的停止词我认为Lucene是您正在寻找的。您应该使用StandardAnalyzer,它知道某些标记类型,小写,删除停止词。。。
使用StandardAnalyzer创建IndexWriter的示例:
public IndexWriter Indexer(String dir) throws IOException {
IndexWriter writer;
Directory indexDir = FSDirectory.ope
我一直在网站的某些部分使用Sitecore查询和快速查询。但随着内容的增长,这些查询变得越来越慢,我想实现Lucene内容查询以加快速度
我想知道我是否可以只使用系统索引,而不必设置单独的索引。Sitecore是否默认索引内容编辑器中的所有内容?这是一个好方法还是我应该创建自己的索引?您将希望实现自己的索引。因为同样的原因,当有很多内容时,你会看到事情变慢,当有很多内容时,索引也会变慢
我更喜欢专门用来驱动我需要的功能的目标索引,而且索引中只包含所需的数据。这允许在组件上使用更小、更高效的索引
对于我正在进行的一个项目,我有一个近1000万个文档的索引。对于从100k到5m的文档集,我需要定期添加字段
Lucene 4支持更新文档(基本上是删除和添加)。将字段添加到更大的文档集中的好方法是什么
到目前为止,我尝试使用SearcherManager包装IndexWriter,并通过在BooleanQuery中包装这些内容,对尚未包含字段但与我感兴趣的查询匹配的文档进行小规模搜索。然后,我迭代ScoreDocs,检索文档,添加新字段并调用writer.updateDocument,使用与每
假设我有一个使用诸如国家列表之类的条件的搜索。用户可以选择一组要搜索的国家,并将此国家与其他标准结合起来
在SQL中,我会在where子句中这样做,即where(国家=‘巴西’或国家=‘法国’或国家=‘中国)和(其他搜索条件)
目前还不清楚如何在Lucene中做到这一点。Query.combine似乎很有前途,但如果我要处理多组“或”术语,那么复杂性会很快增加
Lucene在这方面有能力吗?或者我应该用这些类型的标准点击我的常规数据库并过滤我的Lucene结果吗
深入挖掘,您似乎可以嵌套布尔查询
标签: Lucene
duplicateselasticsearch
我有以下问题,我有一个文档,它有一个字段“xxx”,在整个索引中可能有重复的值,
我想做一件非常简单的事情,我想能够在所有其他字段上使用bool查询来查询索引
但是查询结果应该只返回基于xxx的不同结果,我的索引模拟人,住在同一所房子里的人是重复的。我只希望在我的搜索结果中有不同的房子,但是搜索是在所有房子中进行的
我提前知道复制,因为这是一项一次性索引工作,是否有什么技巧可以在elasticsearch中启用此功能,我正在四处阅读,我知道distinct在elastic或lucene开箱即用中
我在一个Umbraco网站上有一个使用Lucene-examisearcher的应用程序,当该应用程序尝试进行搜索时,我得到一个段文件未找到错误
找不到文件“\n5200-2\iis7\u www\a\r\mysite\www\App\u Data\TEMP\testerindexes\nformentryindexset\Index\segments\u a”
在谷歌搜索之后,我发现这可能是因为多个进程试图同时访问或写入索引
我已尝试重建索引,但仍然出现错误
我怎样才能知道是什么在试图访问索引
我有一些关于环绕声询问雷达的问题。你们谁能提出建议
如何一次搜索多个字段
如下所示,语法允许搜索一个字段。但是如何提交类似“FIELD1:N(abc,corp)FIELD2:N(xyz,corp)”的查询呢。环绕式QueryParser是否可以实现类似的功能
SrndQuery SrndQuery=org.apache.lucene.queryparser.round.parser.queryparser.parse(strtxtstsearchString);
Query Query=srnd
我有一个值为CountryCode的字符串字段
当尝试使用值查询它时,SE可以正常工作
当尝试没有价值,我没有得到任何结果,而有几千
任何人都知道为什么,我甚至在地图插件中使用Kibana,没有显示任何来自“否”的内容。是否在停止词列表中?将搜索“否”的字段设置为“未分析”,否则默认情况下它将被视为停止词,并且不会作为术语索引。注意:在v1.0.0中,标准分析器不再使用英语停止词列表,正是出于这个原因,您可以发布索引或CountryCode字段的映射吗?还有一些带有NOYou的示例文档不需要再做
假设某个特定字段的值是已知的。是否可以从索引中获取与docValue匹配的docId列表
我使用的是Lucene 4.6.0。这可以通过对docvalue进行顺序搜索(在磁盘或内存中)来实现。这与FieldCache中的值类似,但实现方式不同
在Lucene 4.6中,您必须查看FunctionValue的具体实现:
在Lucene 4.0中,API如下所示:
getDirectSource()返回可用于基于磁盘的访问的源。用于基于内存的访问的DocValues.getSource()。源类和特
我想弄清楚Lucene的街区是什么
文件说明如下:
以原子方式添加按顺序分配的文档块
文档ID,以便外部读卡器可以看到
文件
警告:索引当前不记录作为块添加的文档。今天这很好,因为合并将保留
块一段中文档的顺序将被保留,甚至
删除块中的子文档时。大多数搜索功能
(如结果分组和块连接)要求您标记
文件;删除这些文档后,这些搜索功能将
没有按预期工作。显然是在现有块中添加文档
将需要您重新索引整个块
这听起来不像块是一种数据结构,它只是在一次提交中添加的一组文档
但是如果这是真的,合并时块是如何保留
代码如下:
public int docLength(字符串文件名)引发IOException{
整数长度=0;
TermFreqVector t=indexReader.getTermFreqVector(0,“内容”);
for(int i=0;i
我是Lucene的新手。在理解它的过程中,我可以成功地为目录中的文件编制索引,并进行了基本的lucene搜索,以获得特定单词所在的文件列表
现在我试着从一个文件中提取这个句子,这个文件中有搜索词。
我找了很多,但都找不出来
问候。您正在寻找方法
org.apache.lucene.search.highlight.Highlighter.getBestFragment
这种方法在输入时获取分析原始文本生成的标记集,并在输出时返回最相关的文本片段。如果碎片太大,请记得修剪它们。谢谢大家的回复
我试
标签:elasticsearch Lucene
nestednested-query
虽然Lucene的逻辑结构很复杂,但我试图在内容中出现某些搜索结果时突出显示我的嵌套字段
以下是Elasticsearch文档的解释(映射`)
内部执行
在内部,嵌套对象作为附加文档编制索引,但是,由于可以保证它们在同一“块”中编制索引,因此可以非常快速地与父文档合并
在对索引执行操作(如使用match_all查询进行搜索)时,这些内部嵌套文档会自动隐藏,并且在使用嵌套查询时会冒泡出来
因为嵌套文档总是被父文档屏蔽,所以在嵌套查询的范围之外永远无法访问嵌套文档。例如,可以在嵌套对象内的字段上启用
Apaches Solr搜索引擎是否提供近似字符串匹配,例如通过Levenshtein算法
我正在寻找一种按姓氏查找客户的方法。但是我不能保证名字的正确性。如何配置Solr,使其能够找到此人
“Levenshtein”即使我搜索“Levenshtein”?通常这是通过来完成的,默认情况下,它在内部使用实现Levenshtein的
这篇文章很好地解释了它是如何工作的,如何配置它以及有哪些可用的选项,没有必要在这里重复
或者你可以用它
另一种选择是使用a而不是Levenshtein。毛里西奥的回答很
当我在名为“内容”的字段上使用PhraseQuery进行研究时,我收到一个例外情况。
为了索引这个字段,我使用了org.apache.lucene.document.TextField类,因为这个字段包含很多单词。
我使用FrenchAnalyzer和RAMDirectory类创建索引
线程“main”java.lang.IllegalStateException中的异常:字段“comment”被索引,没有位置数据;无法运行短语查询(短语=注释:“skype”)
位于org.apache.luc
我试图在CloudAntNoSQL数据库中的索引中使用日期和时间编写索引和搜索。
当我只传递查询字符串中的日期时,它工作正常
created_date:[2015-08-16 TO 2015-08-27]
这将返回正确的结果,但在参数中包含时间时:
created_date:[2015-08-16 07:38:00 TO 2015-08-27 07:38:02]
我得到一个错误:
Cannot parse 'created_date:[2015-08-16 07:38:00 TO 2015-
我有一个关于alfresco FTS/lucene搜索的问题。众所周知,在搜索查询中,某些特殊字符必须转义,如空格(通过\u x0020\u)
但事实证明,若文件夹的名字first chatacter是一个数字,那个么它也应该被转义。通过创建文件夹(如123456)并导航到节点浏览器中的父文件夹(在我的情况下,我有以下文件夹结构:*/2017/123456/),可以在节点浏览器中轻松测试它:
主路径:/app:company\u home/st:sites//cm:\u x0032\u 017/
我正在尝试将日语文本标记化,并将词性属性提取为
Kuromoji/Lucene附带了一个属性实现,该实现应该提供POS数据,但我无法提取该数据-我在POS.getPartOfSpeech()行上得到了一个NullPointerException。特许属性打印。我错过了什么,做错了什么
String content = "こんばんは 今日寒かったですね 今日、頂いたお菓子があまりにも美味しくて 上り羊羹 御利益ありそうな、ネーミング ぷるんぷるんの、上品な水羊羹です! そして、スイーツもう
我有一个服务器集群,它使用位于网络驱动器上的Lucene索引为文档编制索引。我同步了IndexWriter创建,因此一次只能创建一个实例。每秒大约有50个文档添加到索引中,因此索引会被主动更新。但在一天左右的时间里,索引突然缩小,从几GB减少到几乎为空,然后又开始增长。似乎索引中的所有文档都被突然删除,并创建了一个新的索引。我与Luke检查了索引,没有找到任何标记为已删除的文档。我没能准确地知道这是什么时候发生的。但是当发生这种情况时,索引中的所有文件在过去几分钟内都直接有一个新的时间戳,除了w
我刚刚发现了这个有前途的存储引擎,它是Xodus
与传统文件系统相比,虚拟文件系统模式应该优先使用哪些用例
我还看到了ExodusDirectory-lucene的实现,它怎么能比参考的FSDirectory更好呢?是一个简单的事务文件系统,它是在上个月实现的。传统的文件系统不是事务性的,它不允许使用应用程序定义的具有一致性要求的大量数据
Xodus VFS是直接实现的,用于存储中文本搜索使用的Lucene索引。Xodus是YouTrack中的主要存储引擎。除了快照隔离之外,它还具有可配置的共享
标签:elasticsearch Lucene
n-gram
我目前正在使用ngram开发自动提示功能
我有以下过滤器、分析仪:
"nGram_filter": {
"type": "nGram",
"min_gram": 3,
"max_gram": 10,
"token_chars": [
"letter",
有人知道是否有人存在吗
我已经在谷歌上搜索了几个月了
谢谢更新
出于好奇,我联系了Itamar Syn Hershko,他大约一年前在Lucene邮件列表上很活跃,当时他正在为Lucene开发希伯来语分析器。我问他是否完成了分析。以下是他的回答中的一些相关内容:
长话短说,不,我
没有。没有像样的免费软件/
开放源码希伯来文分析器
Lucene,我可以肯定地说。我是
不确定你的背景是什么
这个话题,但请相信我说的
没有简单的方法可以做到这一点;信息技术
也可能是Lucene没有建造
希伯来语搜
Lucene中是否有一种程序化的方法来知道索引是否优化了
谢谢。isOptimized()自Lucene 3以来一直被弃用。
使用RavenDB对Lucene索引进行查询
此查询解析为OK:
X:[[a]]和Y:[[b]]和Z:[[c]]
但是,此查询为我提供了一个解析异常:
X:[[a]]和Y:[[b]]和Z:[[c]]和P:[[d]]
“Lucene.Net.QueryParsers.ParseException:无法分析'(和)':遇到\”“和”
我在复杂的索引和简单的复制案例中尝试了这个方法,同样的结果是,一旦你超过三个,它就会爆炸。我使用[[]]而不进行分析,因为我需要精确匹配(有时值也包含空格等),而从Ra
我们正在使用SpringMVC、Spring和Hibernate开发一个web应用程序
我们需要在应用程序中添加高效的自由文本搜索功能。为此,我们考虑使用Hibernate搜索,它在引擎盖下使用Lucene,或者直接使用Lucene
既然我们已经在应用程序中使用了hibernate,那么对我们来说什么是最好的选择?其中一个的优点和缺点是什么
谢谢 这是你自己说的——你会以这样或那样的方式使用Lucene
原始的Lucene API不太容易使用。它比Hibernate搜索更低级。如果您已经在使用H
有人知道已经实现了elasticsearch的.NET端口吗?我们已经找到了一个.NET客户端(很容易自己创建),但没有找到服务器。没有,但是为什么要使用.NET版本的服务器
它是一个独立的服务器,所以不管它用什么语言编写
ElasticSearch使用Java中的Lucene库,因此您不仅需要重写ElasticSearch,还需要重写Lucene。为什么这很重要?它是一个自包含的,不管它是如何实现的。@John:您不需要灯堆栈,elasticsearch在Windows上运行得很好。@DrTe
我希望XML模式定义哪些元素可以出现在solrconfig和schema XML文件中,以获得一些IDE完成帮助,并手写一些配置,而不是从网络上复制粘贴,因为许多solr版本都有一些混合内容。我使用的是Solr3.3(它下面有Lucene 3.3)
我在svn或其他任何地方都找不到它。可能Lucene有schema.xml的XSD,它看起来很像Lucene中的文档映射。请看一下。谢谢,虽然这与我要查找的内容很接近,但我担心它是使用推断工具从xml文件推断出来的(我也使用XSDInferance完
我只需要知道标记化输入的结果是否会产生任何标记,如果它做得好,如果不好,我确实需要以另一种方式进行标记化。麻烦如果它确实有一些令牌调用incToken()会破坏一些东西,这样我就必须在不需要的时候重新对它进行排序,因为第一次还行,我该如何解决这个问题呢?只需使用递增令牌然后重置只需使用递增令牌然后重置
我有帖子,可以有许多标签。我只希望我的查询返回带有唯一标记的帖子,而不返回其他帖子。比如说
posts: [
{ id: 1
tags: [hello, world]
...
}
{ id: 2
tags: [hello]
}
]
以下内容:
posts: [
{ id: 2
tags: [hello]
}
]
搜索?q=标签:你好
应仅返回:
posts: [
{ id: 2
tags: [hello]
我想为RDF节点创建一个Lucene分析器。RDF节点可以有多种类型(uri、bnode、纯文本、带语言的纯文本、带数据类型的类型化文本)。在分析术语时,我想创建一个RDFNodeTypeAttribute、LanguageAttribute和DatatypeAttribute,分别存储RDF节点的类型、文字的语言和datatype属性。我的问题是如何将这些属性存储在lucene索引中。我必须写一个自定义的编解码器吗?我必须使用PayloadAttribute吗?一旦存储在索引中,如何利用这些属
如何通过Kibana查询ElasticSearch以选择具有字段X的项目
例如,我有一个映射,其中包含字段{“a”:{“type”:“string”},“b”:{“type”:“string”},以及两个文档
{"a": "lalala"}
{"a": "enoheo", "b": "nthtnhnt"}
我想在不知道其b实际是什么的情况下查找第二个文档。使用,如:
编辑:如果您需要Lucene查询字符串查询,应该这样做:
POST /test_index/_search
{
"quer
我是lucene的初学者。
我在文档中有一个字段名fstname。
如何检索在fstname字段中同时包含单词“vamshi”和“sai”的文档
public class Indexer
{
public Indexer() {}
private IndexWriter indexWriter = null;
public IndexWriter getIndexWriter(boolean create) throws IOException
{
if (indexWriter =
我想搜索除“en_US”之外所有具有区域设置的节点。我在节点浏览器中尝试了下面的查询,但结果得到了所有节点,而与区域设置无关
PATH:"/app:company_home/st:sites/cm:sample/cm:documentLibrary//*" AND -@sys\:locale:"en_US"
我无法找出查询中的错误。有人能帮忙吗。。。
Alfresco版本:Alfresco Enterprise v4.0.2(.9 38)。。
提前谢谢
[…]语言环境在SOLR(基于Apa
我们已经在一个Umbraco应用程序中使用了pdf searcher(nuget软件包)。当我看到pdf搜索结果时,它看起来不是100%正确
搜索结果中前2个PDF包含搜索词,但搜索结果中的第3个、第4个和其余其他PDF没有搜索词。不确定为什么搜索结果中添加了没有搜索词的PDF
有人能提供一些有关umbraco pdf搜索器工作原理的信息吗?并对结果项进行排序
有没有办法从搜索结果中删除根本不包含搜索词的PDF。去下载LUKE()。这是一个工具,允许您查看索引内部,并查看索引中的内容等
使用LU
我正在尝试为索引设置新映射。它将支持部分关键字搜索和由ES支持的自动完成请求
带空格标记器的edgeNGram标记过滤器似乎是一个不错的选择。到目前为止,我的设置如下所示:
curl -XPUT 'localhost:9200/test_ngram_2?pretty' -H 'Content-Type: application/json' -d'{
"settings": {
"index": {
"analysis": {
"analyzer":
标签:elasticsearch Lucene
proximityedit-distance
我从事弹性搜索,有这样一句话:
"Vet caring dog license cat bird"
如果我想搜索“bird dog vet”,我需要至少使用~7作为接近度参数(“bird dog vet”~7)。为什么是~7
上一页 1 2 ...
41 42 43 44 45 46 47 ...
下一页 最后一页 共 78 页