Java nutch crawler正在爬行';asâ€;

Java nutch crawler正在爬行';asâ€;,java,nutch,Java,Nutch,nutch crawler正在爬行let'saslet–Euro™sy???是否有任何设置可以更改此字符集。–欧元™是单引号(不是撇号)的UTF-8编码,您将其解释为Windows-1252。您需要使用正确的编码(UTF-8)。可能会有帮助。我自己也没有用过Nutch,但看起来它很相关: 要允许传递UTF-8字符,请编辑$TOMCAT/conf/server.xml。找到web的标记(查找“8080”)并插入此参数赋值:URIEncoding=“UTF-8”,如Tomcat 5常见问题解答中所述

nutch crawler正在爬行
let's
as
let–Euro™s
y???是否有任何设置可以更改此字符集。

–欧元™
是单引号(不是撇号)的UTF-8编码,您将其解释为Windows-1252。您需要使用正确的编码(UTF-8)。可能会有帮助。

我自己也没有用过Nutch,但看起来它很相关:

要允许传递UTF-8字符,请编辑$TOMCAT/conf/server.xml。找到web的标记(查找“8080”)并插入此参数赋值:URIEncoding=“UTF-8”,如Tomcat 5常见问题解答中所述


我不认为这是因为tomcat,因为我的cmd提示符也显示了相同的东西…我用终端(在ubuntu中)和tomcat@ragaa:但是你是怎么检查航站楼的?你做了什么?(我不是说这是问题所在,但你永远不会知道。)