Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr UTF-8字符未正确显示_Solr_Lucene_Nutch - Fatal编程技术网

Solr UTF-8字符未正确显示

Solr UTF-8字符未正确显示,solr,lucene,nutch,Solr,Lucene,Nutch,我正在使用Nutch1.4和Solr3.3.0对我的法语网站进行爬网和索引。我的网站曾经在iso8859-1中 目前我在solr下有两个索引。第一个存储我的旧页面(iso8859-1),第二个存储我的新页面(utf-8) 我对这两个爬网作业使用相同的nutch配置来获取和索引我站点上的新旧页面。我自己没有添加任何关于charters编码的设置(我想) 我在搜索新页面时遇到了一个问题,这个页面应该是utf-8格式的。法语字符显示不正确。但是对于iso8859-1中的旧页面,一切似乎都很好 我想知道

我正在使用Nutch1.4和Solr3.3.0对我的法语网站进行爬网和索引。我的网站曾经在iso8859-1中

目前我在solr下有两个索引。第一个存储我的旧页面(iso8859-1),第二个存储我的新页面(utf-8)

我对这两个爬网作业使用相同的nutch配置来获取和索引我站点上的新旧页面。我自己没有添加任何关于charters编码的设置(我想)

我在搜索新页面时遇到了一个问题,这个页面应该是utf-8格式的。法语字符显示不正确。但是对于iso8859-1中的旧页面,一切似乎都很好

我想知道是否有人能为我指出解决这个问题的正确方向

我相信问题来自于nutch,因为当我创建片段转储时,我在转储文件中看到了那些有趣的角色


谢谢。

我对Nutch不太熟悉,但我在其他方面也见过

您应该检查或执行以下几项操作:

  • 您在web服务器上的新页面可能不是其UTF-8的内容
  • 新页面的字符集元标记可能仍然是iso8859-1

  • 我建议您使用旧站点的所有旧页面,并使用iconv之类的工具将其转换为UTF-8。然后在web服务器中对其进行配置,使所有文本都被视为UTF-8(即返回的内容类型标题称为UTF-8)。

    在nutch-default.xml中,应相应地设置“parser.character.encoding.default”值。您只需将其设置为utf-8。它的默认值是“windows-1252”。

    嗨,亚当,我已经完成了上面提到的所有步骤。我100%确定文件是utf-8格式的。它可能是不同的字符集。你确定它是iso8859-1而不是窗口代码页(这发生在我身上:)非常感谢尼古拉解决了我的问题。