SOLR特殊字符和表情符号_Solr_Lucene_Hbase_Codepages_Indexer

SOLR特殊字符和表情符号

solr lucene hbase

SOLR特殊字符和表情符号,solr,lucene,hbase,codepages,indexer,Solr,Lucene,Hbase,Codepages,Indexer,我想索引包含特殊字符（货币符号）和表情符号的文本数据。目前，我正在使用以下代码对此数据进行索引：但是在检索数据时，我可以看到所有的特殊字符和表情符号都被破坏了，例如欠债��1590.79结算��436.00 请建议这里可以做什么应用程序流程：数据首先存储在HBASE中，并通过实时索引器将其更新为SOLR CDH版本：5.4.5 SOLR版本：4.10.3 HBASE-VEer:1.0.0我通过将smiley转换为HTMLHex，然后将其存储到SOLR解决了这个问题。现在在SOLR中，

我想索引包含特殊字符（货币符号）和表情符号的文本数据。目前，我正在使用以下代码对此数据进行索引：

但是在检索数据时，我可以看到所有的特殊字符和表情符号都被破坏了，例如
欠债��1590.79结算��436.00

请建议这里可以做什么

应用程序流程：数据首先存储在HBASE中，并通过实时索引器将其更新为SOLR

CDH版本：5.4.5 SOLR版本：4.10.3

HBASE-VEer:1.0.0

我通过将smiley转换为HTMLHex，然后将其存储到SOLR解决了这个问题。现在在SOLR中，我可以看到十六进制代码完好无损，并且可以转换回smileys。
使用的库：

我猜这是UTF-16？Solr需要UTF-8。您可能需要在应用程序中转换为UTF-8。我不知道您使用的是什么语言，但Java的CharsetEncoder可能对您有用。尝试使用Java-DFileEncoding属性将Java代码编码更改为UTF-8。当我检查UTF-8字符列表时，这些符号也在UTF-8下。我猜这是UTF-16？Solr需要UTF-8。您可能需要在应用程序中转换为UTF-8。我不知道您使用的是什么语言，但Java的CharsetEncoder可能对您有用。尝试使用Java-DFileEncoding属性将Java代码编码更改为UTF-8。当我检查UTF-8字符列表时，这些符号也在UTF-8下。