规范化用于索引的Unicode数据(对于多字节语言):什么产品可以做到这一点?Lucene/Hadoop/Solr?

规范化用于索引的Unicode数据(对于多字节语言):什么产品可以做到这一点?Lucene/Hadoop/Solr?,unicode,character-encoding,lucene,html-encode,unicode-normalization,Unicode,Character Encoding,Lucene,Html Encode,Unicode Normalization,我有几个(100多万)文档、电子邮件等,需要索引和搜索。每个文档可能都有不同的编码 我需要学习和理解哪些产品(或产品配置)才能正确执行此操作 我的第一个猜测是基于Lucene的,但这是我正在学习的东西。我的主要愿望是尽快开始耗时的编码过程,以便我们能够同时构建搜索前端。这可能需要对双字节字符进行某种规格化 非常感谢您的帮助。将所有内容转换为UTF-8,并通过规范化表单D运行它。这将有助于您的搜索。您可以尝试。您是否暗示您需要转换文档本身?这听起来是个坏主意,尤其是在一个大型的、异构的集合上 一个

我有几个(100多万)文档、电子邮件等,需要索引和搜索。每个文档可能都有不同的编码

我需要学习和理解哪些产品(或产品配置)才能正确执行此操作

我的第一个猜测是基于Lucene的,但这是我正在学习的东西。我的主要愿望是尽快开始耗时的编码过程,以便我们能够同时构建搜索前端。这可能需要对双字节字符进行某种规格化


非常感谢您的帮助。

将所有内容转换为UTF-8,并通过规范化表单D运行它。这将有助于您的搜索。

您可以尝试。

您是否暗示您需要转换文档本身?这听起来是个坏主意,尤其是在一个大型的、异构的集合上

一个好的搜索引擎将具有健壮的编码检测。Lucene做到了,Solr使用它(Hadoop不是搜索引擎)。我认为不可能有一个搜索引擎在其内部索引格式中不使用标准化编码。因此,标准化不是一个选择标准,尽管尝试编码检测可能是。

我建议您使用。处理编码和文档格式。使用Solr获得工作原型相对容易。允许将文档存储库导入Solr