SOLR特殊字符和表情符号

SOLR特殊字符和表情符号,solr,lucene,hbase,codepages,indexer,Solr,Lucene,Hbase,Codepages,Indexer,我想索引包含特殊字符(货币符号)和表情符号的文本数据。目前,我正在使用以下代码对此数据进行索引: 但是在检索数据时,我可以看到所有的特殊字符和表情符号都被破坏了,例如 欠债��1590.79结算��436.00 请建议这里可以做什么 应用程序流程:数据首先存储在HBASE中,并通过实时索引器将其更新为SOLR CDH版本:5.4.5 SOLR版本:4.10.3 HBASE-VEer:1.0.0我通过将smiley转换为HTMLHex,然后将其存储到SOLR解决了这个问题。现在在SOLR中,

我想索引包含特殊字符(货币符号)和表情符号的文本数据。目前,我正在使用以下代码对此数据进行索引:


但是在检索数据时,我可以看到所有的特殊字符和表情符号都被破坏了,例如
欠债��1590.79结算��436.00

请建议这里可以做什么

应用程序流程:数据首先存储在HBASE中,并通过实时索引器将其更新为SOLR

CDH版本:5.4.5 SOLR版本:4.10.3
HBASE-VEer:1.0.0

我通过将smiley转换为HTMLHex,然后将其存储到SOLR解决了这个问题。现在在SOLR中,我可以看到十六进制代码完好无损,并且可以转换回smileys。
使用的库:

我通过将smiley转换为HTMLHex,然后将其存储到SOLR解决了这个问题。现在在SOLR中,我可以看到十六进制代码完好无损,并且可以转换回smileys。
使用的库:

我猜这是UTF-16?Solr需要UTF-8。您可能需要在应用程序中转换为UTF-8。我不知道您使用的是什么语言,但Java的CharsetEncoder可能对您有用。尝试使用Java-DFileEncoding属性将Java代码编码更改为UTF-8。当我检查UTF-8字符列表时,这些符号也在UTF-8下。我猜这是UTF-16?Solr需要UTF-8。您可能需要在应用程序中转换为UTF-8。我不知道您使用的是什么语言,但Java的CharsetEncoder可能对您有用。尝试使用Java-DFileEncoding属性将Java代码编码更改为UTF-8。当我检查UTF-8字符列表时,这些符号也在UTF-8下。