Solr UTF-8字符未正确显示
我正在使用Nutch1.4和Solr3.3.0对我的法语网站进行爬网和索引。我的网站曾经在iso8859-1中 目前我在solr下有两个索引。第一个存储我的旧页面(iso8859-1),第二个存储我的新页面(utf-8) 我对这两个爬网作业使用相同的nutch配置来获取和索引我站点上的新旧页面。我自己没有添加任何关于charters编码的设置(我想) 我在搜索新页面时遇到了一个问题,这个页面应该是utf-8格式的。法语字符显示不正确。但是对于iso8859-1中的旧页面,一切似乎都很好 我想知道是否有人能为我指出解决这个问题的正确方向 我相信问题来自于nutch,因为当我创建片段转储时,我在转储文件中看到了那些有趣的角色Solr UTF-8字符未正确显示,solr,lucene,nutch,Solr,Lucene,Nutch,我正在使用Nutch1.4和Solr3.3.0对我的法语网站进行爬网和索引。我的网站曾经在iso8859-1中 目前我在solr下有两个索引。第一个存储我的旧页面(iso8859-1),第二个存储我的新页面(utf-8) 我对这两个爬网作业使用相同的nutch配置来获取和索引我站点上的新旧页面。我自己没有添加任何关于charters编码的设置(我想) 我在搜索新页面时遇到了一个问题,这个页面应该是utf-8格式的。法语字符显示不正确。但是对于iso8859-1中的旧页面,一切似乎都很好 我想知道
谢谢。我对Nutch不太熟悉,但我在其他方面也见过 您应该检查或执行以下几项操作:
我建议您使用旧站点的所有旧页面,并使用iconv之类的工具将其转换为UTF-8。然后在web服务器中对其进行配置,使所有文本都被视为UTF-8(即返回的内容类型标题称为UTF-8)。在nutch-default.xml中,应相应地设置“parser.character.encoding.default”值。您只需将其设置为utf-8。它的默认值是“windows-1252”。嗨,亚当,我已经完成了上面提到的所有步骤。我100%确定文件是utf-8格式的。它可能是不同的字符集。你确定它是iso8859-1而不是窗口代码页(这发生在我身上:)非常感谢尼古拉解决了我的问题。