在调用IndexWriter上的AddDocument()之前,我可以调用
IndexReader.IsLocked(myDirectory)
如果返回true,则调用
IndexReader.Unlock(myDirectory)
i、 e
我的代码中不断出现“锁定获取超时”错误。
为了克服这个错误,如果可以的话,我计划使用这种方法。获取“Lock-get-timed-out”错误是一个警告信号,表明您处理索引的方式有问题。如果有多个IndexWriter写入索引,则强制解锁可能会导致索引
我们正在尝试使用H2 Lucene全文搜索功能。它工作得很好。现在我们需要为H2中的特定字段指定权重(在索引创建时,而不是在搜索期间)。假设第1列的权重为100,第2列的权重为50(因为该字段不太重要)。这与lucene中的“field boost”功能相同。在索引创建过程中,是否可以在H2 lucene全文搜索中执行此增强功能
此外,我不确定如何在H2中获得Lucene的相关性得分?您需要在H2中更改Lucene支持。只有一个类需要改变,那就是类
然后,您可以向H2邮件列表提交一个补丁,这样它
我试图直接使用Mahout 0.7 Java API从Lucene 4.0.0检索向量。指数但是,当调用方法org.apache.mahout.utils.vectors.lucene.Driver.dumpVectors()时,我得到一个ClassNotFoundException:org.apache.lucene.index.TermVectorMapper。这是真的;该类不存在于lucene-core-4.0.0.jar中,但它确实存在于lucene-core-3.6.0.jar中
那么
我正在使用一个统计方面(@see)对弹性搜索索引中文档中的几个字段执行聚合
我想知道是否有人知道,如果某个特定字段不存在,API是否提供了提供默认值的方法。例如,如果字段不存在,请使用0(零)作为该字段的值。默认情况下,当聚合发生时,它似乎会给出一个空指针异常
我最初的想法是使用脚本字段来测试聚合字段是否为空,并在那里执行默认的0逻辑。正如您在问题中所述,您可以尝试此处定义的脚本字段:
例如:“脚本”:“\u source.place==null?null:0”
我承认我没有在统计方面尝试过这一
标签: Lucene
scoringbooleanquery
我使用的是一个布尔查询,它由termqueries构成,所有这些查询都在同一个字段上,目前都设置为“应该”
我试图找出ScoreDoc[]结果对象的排名如何适用于此查询,但未能找到正确的文档,也许您可以帮助回答以下问题:
1) 布尔查询是否会将匹配所有术语的命中排序高于仅匹配单个术语的命中排序
2) 有没有办法确定哪个termquery与结果scoredoc对象匹配,哪个不匹配
谢谢你的帮助 布尔查询对多个查询项的命中排序要比只匹配一个查询项的命中排序高,但请记住,这只是评分算法的一部分。还有许
我需要存储结构化文档,并且我需要能够在搜索属性时找到它们
例如:
CREATE CLASS testDocument
INSERT INTO testDocument (my_prop) values ({"name": "James", "age": 23})
INSERT INTO testDocument (my_prop) values ({"name": "John", "age": 51, "tatoos": ["dragon", "jellyfish", "baloon"]})
我可以找到总点击数,但我不想找到每个文档的点击数
谢谢。如果这是您想要的,不是100%,但是如果您想要一个术语在文档中被使用的次数,请参阅谢谢您的回复。。我需要你给我的链接中提到的东西。。但是我无法使用它。。你能详细说明一下吗,或者给我一个更好的解决方案1.如果你能尽早回复我就太好了。。谢谢
压缩字段值后,我已对该字段执行存储和索引
但是当我尝试搜索值时,我得到了命中率,但没有得到值。我如何也能得到这个值
/*这是我的索引代码*/
文档absDoc=新文档();valuesbyte=CompressionTools.compress(valueForCompress.getBytes())
/*搜索代码*/
Query=parser.parse(searchStr);TopDocs hits=is.search(查询,10)
System.out.println(“Hits=“+Hi
我必须为从企业网络捕获的日志记录编制索引。在当前的实施中,每个协议都有索引文件,如year/mont/day/lucene文件,我想知道我是否只使用一个lucene索引文件,并且每天更新这个文件,这对搜索时间有何影响。这是不是相当大的增长,在目前的位置上,当我搜索时,我正在查询这一天。
当前:smtp/年/月/ay/luceneindex
如果我在一个文件中对所有idex进行smtp/luceneindex,请让我知道其利弊,这取决于一系列因素
当你说一个lucene文件?
Lucene使用多种
似乎如果我通过ngram过滤器运行一个单词或短语,原始单词不会被索引。取而代之的是,我只得到最大值的单词块。我希望原始单词也能被索引。我使用的是Elasticsearch 0.20.5。如果我使用带有Ngram的过滤器设置索引,如下所示:
CURL -XPUT 'http://localhost:9200/test/' -d '{
"settings": {
"analysis": {
"filter": {
"my
标签: Lucene
hibernate-searchclustered-indexinfinispan
我使用了Hibernate搜索和Infinispan来存储Lucene索引。
配置如下:
在persistence.xml中
<property name="hibernate.search.[default|plindexes].directory_provider" value="org.hibernate.search.infinispan.impl.InfinispanDirectoryProvider" />
并在pom.xml文件中添加
我需要使用MapReduce概念对单个文档进行文本挖掘
我的一些朋友建议我使用ApacheLucene
但是在阅读了一些关于ApacheLucene的文档之后,我发现它只有在我们需要索引文档时才有用
有人能给我推荐更好的方法吗
提前感谢Lucene是一个文档索引和检索框架。当然,人们可以使用索引数据,如关键字搜索、文档相似性等
如果您对TM感兴趣,可以看看OpenNLP和LingPipe。他们有100多个用于文本挖掘和自然语言处理的库。ApacheMahout是一个用于Hadoop的数据挖掘库
我可以使用Lucene查询ElasticSearch索引吗
我使用ElasticSearch创建了一个索引并插入了以下三个文档:
$ curl -XPOST localhost:9200/index1/type1 -d '{"f1":"dog"}'
$ curl -XPOST localhost:9200/index1/type2 -d '{"f2":"cat"}'
$ curl -XPOST localhost:9200/index1/type2 -d '{"f3":"horse"}'
所以
我在一个jdbc可滚动迭代器中有一个文件,在这里我有迭代的限制。现在我有了一个用例来搜索迭代器中的文件。因此,是否有任何方法可以将文件和搜索内容传递给LUCENE以获得LUCENE命中,而不必像LUCENE中所给出的那样索引和创建目录。您可以使用RAMDirectory而不是在文件系统上创建物理目录。它将确定索引,但索引将驻留在内存中。还请记住,对于大型索引来说,它并不是真正的亮点。因此,根据您的应用程序,它可能会也可能不会很好地为您服务。试试看
谢谢您的回复。我不喜欢使用RAMDirector
是否可以使用Hibernate搜索在数据库中插入/更新记录时进行自动索引。而不是每次都手动操作,比如运行应用程序,还有人必须注意这一点,所以我想每次都做代码,比如自动索引,不需要检查。是的,这是非常可能的。您可以只在实体上使用注释。请看本指南:
编辑:
嗨。如果hibernate属性正确,那么一旦建立索引,就不必手动为表编制索引。通过EntityManager/HibernateFactory的每个插入都将点击hibernate搜索,如果实体被索引,它也将更新索引。您是否正确配置了搜索?请查看
像这样的问题已经被问了很多次(例如,,…),而我无法从这些答案中得到我所需要的可能只是我不理解Lucene所说的“术语”或“术语文档”的意思
我建立了一个Lucene索引,因此:
var db = new DataClassesDataContext();
var articles = (from article in db.Articles
orderby article.articleID ascending
select ar
标签: Lucene
elasticsearchaggregate
假设每个人都有几个包含值的文档:
{
"name": "John",
"value": 1,
"timestamp": 2014-06-15
}
{
"name": "John",
"value": 2,
"timestamp": 2014-06-16
}
{
"name": "Sam",
"value": 2,
"timestamp": 2014-06-15
}
{
"name": "Sam",
"value": 3,
"timestamp
标签:elasticsearch Lucene
scoring
我正在学习elasticsearch中询问解释的结果。我理解其中最大的部分,但是有一个价值我找不到相关信息。下面是一个简单匹配查询的解释部分,我在一个字段中使用了一个术语。结果是:
_explanation:
value: 4.715253
description: "weight(name:love in 604) [PerFieldSimilarity], result of:"
details:
- value: 4.715253
description: "fie
我的系统每年需要创建约10亿份文档,分为5类文档。
我有一个multimap索引,用于查询5种类型的文档。该指数将代表每年约200亿个参考文献
RavenDb能够假设这样数量的数据吗?
Lucene似乎有能力处理大约21亿个文档作为上限。
每个数据库也有一个16To限制,这对我来说是个问题
我的问题的解决方案是什么?我是否需要更改NoSQL数据库系统的配置?您可能需要查看跨多个节点的数据分片。
我建议每个节点大约有5000-1亿个文档,这取决于您的负载。但是文档ID的问题也是一样的,不是吗?这仅
标签:elasticsearch Lucene
stop-words
在我正在构建的索引中,我感兴趣的是运行一个查询,然后(使用facet)返回该查询的木瓦。这是我在文本中使用的分析器:
{
"settings": {
"analysis": {
"analyzer": {
"shingleAnalyzer": {
"tokenizer": "standard",
"filter": [
"standard",
"lowercase",
标签: Lucene
export-to-excelluke
我们可以在Luke的概览页面上看到特定领域的“顶级坦克术语”。我想知道是否有办法将这个术语列表导出到excel文件中
我认为这应该是一个标准要求,在卢克身上肯定有办法,但我没有找到
我也用过谷歌,但找不到任何有用的东西。如果内存可用,你就不能右键单击并将排名靠前的术语复制到剪贴板上吗?它只复制选定的单个术语。
今天,我有一个包含两周索引的elasticsearch集群,几天后,我们将收到新机器,因此我们需要将所有索引迁移到新机器中。对于迁移,我有一个现成的场景
我将备份索引
我将把新机器连接到集群
将等待计算机同步
最后,我将关闭所有旧机器
因此,我希望将旧集群迁移到新集群。你认为这个场景够了吗?还是我需要添加更多的步骤
提前感谢大家我们已经多次将数据迁移到accros Elasticsearch群集,下面是我们的步骤:
每个节点都有一个特定的标记(在配置文件中定义,如
node.mytag:m
我在使用单词分隔符和荧光笔的组合时遇到了一个奇怪的问题
我有一个名为model_name的字符串字段,它在字段级别使用单词分隔符标记器在索引和搜索时进行分析。
我还有另外两个字段名为style\u name,vin\u no
样本数据
> model_name : Silverado 2500HD
> Style : Sedan 4 dr vin_no :
> JTHKD5BH4F2236174
当我使用vin编号“JTHKD5BH4F2236174”搜索我的映射时,它与预
我正在使用lucene search获取按字符串过滤的桶项目,这是我的代码:
var innerQuery=newfulltextquery(myString);
var hits=searchContext.Search(innerQuery,searchIndex.GetDocumentCount());
是否有一些查询或其他内容可以让我获取所有索引项?我尝试使用空的“myString”,但出现一个错误,它不能为空。您可以使用Lucene.Net.Search.MatchAllDocsQu
标签: Lucene
azure-cognitive-search
我为我的索引和Azure搜索中的字段设置了默认分析器
我有以下字段名值
演示001
演示站点001
001演示站点
我正在尝试获取以下内容的匹配值。我的示例查询是
$count=true&queryType=full&searchFields=name&searchMode=any&$select=name,id&$skip=0&$top=10&search=name:/"Demo(.*)/
我可以得到所有的结果
为了获得仅获取Dem
我的索引包含以下数据:
doc.add(new StringField("domain", "examplehouse.com", Field.Store.YES)
doc.add(new StringField("domain", "exampletree.com", Field.Store.YES)
doc.add(new StringField("domain", "exampleapple.com", Field.Store.YES)
现在,我尝试返回包含“示例”一词的所有域:
打印时
我正在使用Lucene,我有几个目录阅读器中的多阅读器,如:
MutiReader myMultiReader = new Multireader(directoryReader1, directoryReader2,...)
我想从中使用SearcherManager,因为索引中会不时发生更改。我该怎么做?SeacherManager只接受单个DirectoryReader或IndexWriter作为构造函数中的参数
我不明白如何将MultiReader和SearcherManager结合
我在以前的项目中使用过Lucene,所以我对API有些熟悉。然而,我从来没有做过任何“花哨”的事情(“花哨”指的是使用过滤器、不同的分析器、增压、有效载荷等)
我即将开始实现XQuery的全文搜索功能:
它的查询能力是我见过的最复杂的。根据我对Lucene的经验,我知道它可以用来实现一些特性;然而,我想把它们全部看一遍。对于每个功能,我只需要一个简单的答案,比如“功能X最好使用查询过滤器实现”,这样我就可以从每个功能的正确方向开始
注意:我将实现自己的查询解析器,并使用Lucene类的各种实例
在Lucene中,使用标准的分析器,我想让带有空格和特殊字符(下划线、!、@、#、…)的字段可以搜索
我将IndexField设置为NOT\u NO\u normals,并将Field.Store.YES
当我查看LUKE中的索引时,字段与我预期的一样,值如下:
“SKU编号”,但当我搜索“SKU”或“SKU*”时,什么都没有出现
我缺少什么?Field.Store.YES不会影响此字段上的搜索行为。我将IndexField设置为不进行分析
尝试使用KeywordAnalyzer analyze
分析器需要西班牙语的实现。如果有人知道我在哪里,我很感激。什么?你是说Lucene的西班牙语Analyzer类的实现吗
你可能想看看。似乎雪球词干分析器支持西班牙语,并且可以与Lucene集成。什么?你是说Lucene的西班牙语Analyzer类的实现吗
你可能想看看。似乎Snowball词干分析器支持西班牙语,并且可以与Lucene集成。Analyzer Analyzer=新的SnowballaAnalyzer(“西班牙语”)
Snowball在lucene/contrib/Snowball中
我正在做一个涉及设计网站的uni项目。我正处于发展的早期阶段,我只想澄清我对迄今为止所学知识的理解。我的网站将包含一个数据库SQL或Oracle,可能有powerpoint、word和其他一些文件,但主要是这些文件
我可以使用Lucene来:
1使用关键字搜索我的网站以查找和检索相关页面
2从数据库中搜索并提取相关powerpoint和word文件
根据我收集的核心内容,Lucene将为我的网站和数据库编制索引,并查找相关页面和文件。不过,我需要添加其他软件,例如爬虫和用户界面
正如我所说,我对
我正在尝试将WordNetAPI集成到ApacheSolr中。但它似乎不起作用,也没有好的文档。如果有人在这方面有经验,你能告诉我这些步骤吗?有多种方法可以做到这一点:
(一)
(二)
这些是简单的Java类,它们从WordNet的prolog文件中提取同义词——或多或少是相同的方式。希望这有帮助
佩特尔
我们正在使用Lucene开发一个免费文本搜索框,用于搜索发送给用户的数据,例如电子邮件收件箱。我们希望允许该框处理日期,例如2011年5月1日。为了简化操作,我们将当前版本的功能限制为两种日期格式:
mm/dd/yy
mm/dd/yyyy
对于我们的原型,我们入侵了查询分析过程,试图预处理查询字符串以查找这两种日期模式。这是大约2年前的事了,我们在Lucene 2.4上。我很好奇Lucene中是否有现成的工具可以接受DateFormat并返回带有任何已识别日期的令牌流。查看Lucene 2.9
标签: Lucene
groupingfaceted-searchfacet
我在Lucene3.5Contrib文件夹中发现了两个插件:一个是分组,另一个是方面。
在我的选项中,这两个选项都用于将我的文档划分为不同的类别。为什么lucene现在有两个插件?它们是lucene的两个不同功能:
最早与Lucene 3.2一起发布,其相关的jira问题是:它允许按指定字段对搜索结果进行分组。例如,如果按“作者”字段分组,则“作者”字段中具有相同值的所有文档都会归入一个组。您将有一种树作为输出。如果你想更深入地使用这个lucene特性,它应该是有用的
Faceting最早是在
Luke显示如下结果:
上次搜索时间:67999美国
什么是“我们”?如何将其转换为ms?这实际上意味着μs或微秒(不幸的是,它不是ASCII码,因此希腊字母mu被类似的u替换)。要得到ms,除以1000。我永远不会这样显示结果……我不确定@Luke是否知道搜索的第一件事,但他肯定知道最后一件事!
我正在使用Lucene+Hibernate搜索,并选择DefualtAnalyzer作为分析器。
但我不喜欢它,我只希望输入的值能够准确匹配。
例如,输入“我爱你”,它将被分析为“[Ilo lov ove eyo you]”
我只想我只想“我爱你”和“我爱你”匹配,如果不是“我爱你”,你什么都找不到
那么如何让它工作呢?这样做:
FullTextSession fullTextSession = Search.getFullTextSession(session);
Transa
这可能是有史以来最简单、最乏味的问题之一,但在为Lucene中的所有文档编制索引后,如何仅提取一个存储有指定id的文档(例如,在StringField中)?它应该是一个等价的SQL表达式,例如
Select id, description
from index
where id = '1'
其中文档有两个字段,一个ID和一个描述。
我已经解释过这个问题以前是否被问过太多次,等等。但是在用可能错误的搜索词搜索了数小时后,我决定在这里问:)Lucene演示展示了如何使用Lucene的标准Quer
在SQL中,我可以用类似SQL的工具很好地搜索电子邮件地址
用电子邮件“stack@domain.com,搜索“stack”、“@domain.com”、“domain.com”或“domain”将返回所需的电子邮件地址
如何使用ElasticSearch获得相同的结果
我玩过nGram、edgeNGram、uax_url_电子邮件等,搜索结果非常糟糕。如果我错了,请纠正我,听起来我必须做以下事情:
用于索引分析器
使用“关键字”、“空白”或“uax\u url\u电子邮件”标记器,使电子邮件
我找到了一些教程,他们将索引文件存储到BerkeleyDB中,而不是将索引文件存储到目录中。为什么?它是否提高了搜索性能?提到的那本书在9.2章中提到了在Berkeley DB中存储索引。如前所述,它引入了事务支持。数据库提交将存储新更改的实体和写入数据库的任何更改。实体和搜索索引将始终同步
根据定义,它将比纯磁盘写入速度慢,因为在写入过程中会发生更多的事情。阅读也是如此;以自定义格式存储数据将受到某种惩罚。但是,存储在“个人信息管理器”中的数据量可能不会太大,并且可能不会注意到小的损失(可能是
如何使用lucene search获得下面提到的场景中的搜索命中率
例如:
你好,世界你好
在上面的例子中,如果我输入“hellowo”,或“Hel”,或“Hello”,我需要点击
这意味着,若输入的短语或字符在搜索字符串中存在,我需要被点击
以下是我获得点击率的代码:
QueryParser parser = null;
Query query = null;
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT, ne
我会在客户端阅读Lucene索引(没有任何服务器)
索引文件夹位于本地。事实上,我有一个网站的文件夹,里面有一个文件夹,包含几个文档(xml)和lucene索引。
在文档中,有如下元素
<link ref="A-B-C">a link</link>
链接
在lucene索引中,A-B-C指的是类似于_hat_A-B-C.xml的路径。
所以我会在客户端用JS或其他语言阅读Lucene索引
我发现,但我认为它使用Node.js,所以我们必须使用服务器
哪种工具可以做到
标签: Lucene
relevancesitefinity-6.x
我必须使用Sitefinity,我正在尝试确定Sitefinity字段的默认相关性提升。根据其中一个页面的html源中的生成器标记,我们似乎正在使用版本6.2.4910.0 PU
例如,当按Lucene相关性排序时,在标题中找到的搜索值似乎得到了提升,使它们的排名高于在标签或文章内容中找到的相同值
是否有任何关于这些提升值的文档来支持我的发现,或者您是否有与这些相关的经验?我正试图找到一个明确的答案,例如,是否可以将定制的增强应用于索引
这个链接是我能在Sitefinity网站上找到的最接近相关
例如,有一个英文名为“ABC”的项目,其对应的日文、韩文和中文版本(含翻译内容)。如果搜索关键字为“ABC”,则韩文搜索结果为0,但返回的韩文版本(即使没有“ABC”字样)应为项目名称。
下面是用于筛选的代码:
query=query.Filter(item=>item.Language==Sitecore.Context.Language.Name);
获取结果:
query=query.Where(x=>x.Title.Contains(word)| x.Content.Contains(
我在elasticsearch中进行了以下查询:
{
"size": 0,
"query": {
"query_string": {
"query": "*",
"analyze_wildcard": true
}
},
"_source": {
"excludes": []
},
"aggs": {
"2": {
"terms": {
"field": "tokens.keyword",
我正在尝试在搜索实现中实现同义词文件。我找到了许多文件作为实施该计划的指导方针,但最终无法找到有效的解决方案
首先,我添加了分析器,如下所示:
PUT /products/_settings
{
"settings": {
"index" : {
"analysis" : {
"analyzer" : {
"synonym" : {
标签:elasticsearch Lucene
tf-idfmorelikethis
我一直在尝试探索ElasticSearch中的“更像这样”功能。我已经阅读并重新阅读了文档,但是我很难理解为什么会发生以下行为
基本上,我插入了三个文档,并尝试使用max\u Query\u terms=1“更像这个查询”,希望使用更高的TF-IDF术语,但情况似乎并非如此
curl -XPOST --header 'Content-Type: application/json' http://localhost:9200/samples/_doc -d '{
"message&
在我们的场景中,IO操作受到限制,索引的建立和服务处于不同的过程中
我们考虑利用RAMBAREX构建/服务索引。差距在于我们需要在RAMDirectory中持久化(序列化)内容,并在提供服务时对其进行反序列化。我们需要对RAMDirectory和RAMFile进行子类化。更多详情请访问
在mycollection.xconf
如何提高tei:title元素的点击率
我试过了
而且
但是,由于只有字段被索引,前者被忽略了,后者甚至看起来都不有效。事实证明,这还不可能,但将来可能会添加
以下是跟踪进度的功能请求:这是Lucene的XML还是Solr的XML?虽然Solr在幕后使用Lucene,但我不相信Lucene本身可以通过这样的XML进行配置。我认为XML可配置性是Solr添加的功能。这个问题是关于嵌入到eXist数据库中的Lucene搜索引擎的。
我有3个产品名称,它们是
Bounty Select-A-Size白色纸巾12百万卷
Bounty精选A号纸巾(12卷)
Bounty Select-A-Size纸巾白色12百万卷
正如你所看到的,第一个和第三个词是相同的,除了单词“White”的位置。第二个术语缺少“白色”和“巨型”两个词
现在,当我运行以下代码时:
publicstaticvoidmain(字符串[]args)抛出IOException、ParseException{
StandardAnalyzer=新的StandardA
在处理精确匹配时,我会收到一个真实世界的查询,如下所示:
不在教育、就业或培训中
转换为移除stopwords的Lucene查询提供:
+Content:"? ? education employment ? training"
+Content:"? ? ? ? thing"
这里有一个更人为的例子:
没有这样的事
转换为移除stopwords的Lucene查询提供:
+Content:"? ? education employment ? training"
+Content:"
上一页 1 2 ...
46 47 48 49 50 51 52 ...
下一页 最后一页 共 78 页