用于翻译文档索引的ApacheSolr

用于翻译文档索引的ApacheSolr,solr,Solr,Apache solr是否允许这样做: 除了翻译成法语的文件外,是否有可能将原文以及原文中使用的上下文返回给用户 要编制索引的文档是pdf文件。 ُ编辑:添加示例 我有原始文件doc_eng.pdf和翻译文件doc_fr.pdf 当查询响应返回doc\u fr.pdf时,如果可能,我希望能够获得doc\u eng.pdf以及上下文(突出显示) 我的建议 1-将doc_fr.pdf和doc_eng.pdf映射到相同的id(如果可以这样做),并添加一个布尔字段isooriginal=true | f

Apache solr是否允许这样做:

除了翻译成法语的文件外,是否有可能将原文以及原文中使用的上下文返回给用户

要编制索引的文档是pdf文件。

ُ编辑:添加示例

我有原始文件
doc_eng.pdf
和翻译文件
doc_fr.pdf

当查询响应返回
doc\u fr.pdf
时,如果可能,我希望能够获得
doc\u eng.pdf
以及上下文(突出显示)

我的建议

1-将
doc_fr.pdf
doc_eng.pdf
映射到相同的id(如果可以这样做),并添加一个布尔字段isooriginal=true | false


2-使用嵌套文档(但我不知道如何处理pdf文件)

是的,solr可以做到这一点。我建议您使用
apachetika机制

在使用langid UpdateRequestProcessor编制索引期间,Solr可以识别语言并将文本映射到特定于语言的字段

Solr支持此功能的两种实现:

[语言检测]( )


您必须自己添加翻译(因此,还必须添加翻译内容之间的上下文匹配);Solr默认不包括任何翻译机制。谢谢,是的,我这样做了,但我要求原始文件和翻译文件之间的关系。是的,这是您必须为自己添加元数据的内容,即哪些术语/句子与哪些翻译内容相匹配。如果您确实有元数据,那么在存储的文本中包含它映射的id,并使用它突出显示内容的两面-原始内容和翻译内容,并在向用户显示内容时去除元数据。我觉得这是对的,我将尝试一下。你能看看我添加到问题中的更新吗。@elouanesbg是的,Matslindh的评论是解决另一个问题的正确方法。