Python 带有nltk的UnicodeDecodeError

Python 带有nltk的UnicodeDecodeError,python,nltk,python-unicode,Python,Nltk,Python Unicode,我正在使用python2.7和nltk处理从各种网站上刮取的内容的大型txt文件。但是我遇到了各种unicode错误,例如 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128) 我的问题不是如何用python“修复”这个问题,而是在将.txt文件“馈送”到python之前,我是否可以对它做些什么(如格式化),例如“生成纯文本”,以完全避免这个问题 更新:

我正在使用python2.7和nltk处理从各种网站上刮取的内容的大型txt文件。但是我遇到了各种unicode错误,例如

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128)
我的问题不是如何用python“修复”这个问题,而是在将.txt文件“馈送”到python之前,我是否可以对它做些什么(如格式化),例如“生成纯文本”,以完全避免这个问题

更新:

我环顾四周,在python中找到了一个似乎可以完美工作的解决方案:

import sys
reload(sys)
sys.setdefaultencoding('utf8')

尝试使用以下命令打开文件:

f=open(fname,encoding=“ascii”,errors=“subscrateescape”)

将“ascii”更改为所需的编码。

您能否共享用于打开文件的代码,以及文件中可能包含问题字节的部分?嘿@AlexanderCécile,感谢您的回答…我试图在python之外解决问题(如txt文件格式)但是我刚刚找到了一个有效的解决方案…现在就可以了好吧,我很高兴它成功了。不过,至少共享部分代码可能还是有用的。