Python 2.7 UnicodeDecodeError:&x27；utf8'；编解码器可以'；t解码位置12的字节0x9a_Python 2.7_Encoding_Utf 8_Chatterbot

Python 2.7 UnicodeDecodeError:&x27；utf8'；编解码器可以'；t解码位置12的字节0x9a

python-2.7 encoding utf-8

Python 2.7 UnicodeDecodeError:&x27；utf8'；编解码器可以'；t解码位置12的字节0x9a,python-2.7,encoding,utf-8,chatterbot,Python 2.7,Encoding,Utf 8,Chatterbot,我正在用chatterbot库开发一个聊天机器人。聊天机器人是我的母语-->斯洛文尼亚语，它有很多奇怪的字符（例如：š，č，ž）。我正在使用python 2.7 当我尝试训练机器人时，图书馆遇到了上述角色的问题。例如，当我运行以下代码时： chatBot.set_trainer(ListTrainer) chatBot.train([ "Koliko imam še dopusta?", "Letos imate še 19 dni dopusta

我正在用chatterbot库开发一个聊天机器人。聊天机器人是我的母语-->斯洛文尼亚语，它有很多奇怪的字符（例如：š，č，ž）。我正在使用python 2.7

当我尝试训练机器人时，图书馆遇到了上述角色的问题。例如，当我运行以下代码时：

chatBot.set_trainer(ListTrainer)
chatBot.train([
            "Koliko imam še dopusta?",
            "Letos imate še 19 dni dopusta.",
        ])

import sys
reload(sys)
sys.setdefaultencoding('utf8')

它抛出以下错误：

UnicodeDecodeError:“utf8”编解码器无法解码位置12处的字节0x9a:无效的开始字节

我在文件顶部添加了

#-*-编码：utf-8-*-

行，我还通过编辑器（升华文本3）将所有使用过的文件的编码更改为utf-8，我用以下代码更改了系统默认编码：

chatBot.set_trainer(ListTrainer)
chatBot.train([
            "Koliko imam še dopusta?",
            "Letos imate še 19 dni dopusta.",
        ])

import sys
reload(sys)
sys.setdefaultencoding('utf8')

字符串的类型为unicode

当我试图得到一个回应，这些奇怪的角色，它的工作，它与他们没有任何问题。例如，在与上述训练代码相同的执行中运行以下代码（当我在训练字符串中将“š”更改为“s”并将“č”更改为“c”时），不会抛出错误：

chatBot.set_trainer(ListTrainer)
chatBot.train([
            "Koliko imam se dopusta?",
            "Letos imate se 19 dni dopusta.",
        ])    
chatBot.get_response("Koliko imam še dopusta?")

我找不到解决这个问题的办法。有什么建议吗？提前感谢。：）

编辑：我使用来自uuu future uuuu导入unicode文本的

来生成unicode类型的字符串。我还使用type（myString）

我也想贴这个
编辑2:@MallikarjunaraoKosuri-s代码可以工作，但在我的例子中，我在chatbot实例初始化中还有一件事，如下所示：
chatBot = ChatBot(
    'Test',
    trainer='chatterbot.trainers.ListTrainer',
    storage_adapter='chatterbot.storage.JsonFileStorageAdapter'
)

这就是我犯错误的原因。聊天机器人创建的json存储文件是以我的本地编码而不是utf-8创建的。默认存储（.sqlite3）似乎没有这个问题，所以现在我将避免使用json存储。但是我仍然有兴趣找到这个错误的解决方案。
您示例中的字符串不是unicode类型
否则Python不会抛出UnicodeDecodeError

这种类型的错误表示，在程序执行的特定步骤中，Python试图将字节字符串解码为unicode，但由于某些原因失败

就您而言，原因是：

解码由

utf-8

您的源文件不在

utf-8

中，而且几乎肯定在

cp1252

中：

import unicodedata

b = '\x9a'

# u = b.decode('utf-8') # UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a 
                        # in position 0: invalid start byte

u = b.decode('cp1252')

print unicodedata.name(u) # LATIN SMALL LETTER S WITH CARON
print u # š

因此，您的

cp1252

源中的

0x9a

字节不能用

utf-8

解码

最好的解决方案是除了将源代码转换为utf-8之外什么都不做


使用Sublime Text 3，您可以通过以下方式轻松完成此操作：文件->使用编码重新打开->UTF-8


但是在转换之前不要忘记Ctrl+C您的源代码，因为在转换之后，您所有的š，č，ž
字符都将被？
替换，我们的一些朋友已经建议了好的部分解决方案，不过我还是希望将所有的解决方案合并为一个
作者@gunthercox建议在这里介绍一些指导原则
Python终端
>>> # -*- coding: utf-8 -*-
... from chatterbot import ChatBot
>>> 
>>> # Create a new chat bot named Test
... chatBot = ChatBot(
...     'Test',
...     trainer='chatterbot.trainers.ListTrainer'
... )
>>> 
>>> chatBot.train([
...     "Koliko imam še dopusta?",
...     "Letos imate še 19 dni dopusta.",
... ])
List Trainer: [####################] 100%
>>> 

您说strin是unicode类型的：您使用的是来自未来的导入unicode文本的？另外，哪一行引起解码错误？因为如果字符串是unicode，则不应对其进行解码（它们都已解码），因此也不应存在任何解码错误。不要更改默认编码setdefaultencoding
由于某种原因被禁用（库希望默认值为ascii
）。#coding
声明源文件的编码。确保您确实以声明的编码保存了源文件。@lenz是的，我使用的是来自未来的导入unicode文本的。解码错误在列（“Koliko imamše dopusta？”，“Letos imateše 19 dni dopusta.”）中出现。
方法。@MarkTolonen，好的，注意，我将从代码中删除该错误。我在另一个stackoverflow中看到了类似问题的答案，并在该线程中标记为正确。我认为它被保存为utf-8，我在sublime中做了这件事，下面的答案是这样的。这就是我所说的“我还通过我的编辑器（升华文本3）将所有使用过的文件的编码更改为utf-8”。但是，我怎么知道在这样做之后，我的文件实际上是utf-8编码的呢？当我保存时，它会在程序页脚中写入一个状态，在文件保存的地方，然后在括号中写上utf-8。我已经尝试过了，这就是我的意思：“我还通过我的编辑器（升华文本3）将所有使用过的文件的编码更改为utf-8”。但我会继续玩这个游戏，我觉得这方面可能会有一些东西。它是unicode类型的，或者至少是类型（myString）
方法告诉我的。@matiOS，你的代码中可以有unicode字符串，就像一些myString
，但是，例如，字符串“Koliko imamše dopusta？”
，它在聊天机器人.train（）中，在Python 2.7中不是unicode。它是一个常规字节字符串。看起来这个字节字符串导致了这个问题。此外，在UnicodeDecodeError
中提到0x9a
字节（在cp1252
中为š
）会持续提示源代码应该在cp1252
中。您实际上是如何在Sublime中更改源代码的编码的？我在myString
变量中保存了提到的字符串“Koliko imamše dopusta？”
，然后运行类型（myString）
代码，结果是unicode。我明白你想告诉我的，但答案似乎是朝这个方向的。我按照您建议的方式更改了编码。@matiOS，在Python 2.7中：myString=“Koliko imamše dopusta？”；打印类型（myString）
总是给出
，这是一个字节字符串，而不是unicode。尝试通过1）CTRL+`->运行Sublime的控制台2）执行查看来检查文件的编码