Python 无法通过拉丁文1编码的文件进行分析
我正试图解析斯坦福情感数据库中的一个大型推文文件,请参见此处:,以下是我的代码:Python 无法通过拉丁文1编码的文件进行分析,python,python-3.6,Python,Python 3.6,我正试图解析斯坦福情感数据库中的一个大型推文文件,请参见此处:,以下是我的代码: def init_process(fin, fout): outfile = open(fout, 'a') with open(fin, buffering=200000, encoding='latin-1') as f: try: for line in f: line = line.replace('"', '')
def init_process(fin, fout):
outfile = open(fout, 'a')
with open(fin, buffering=200000, encoding='latin-1') as f:
try:
for line in f:
line = line.replace('"', '')
initial_polarity = line.split(',')[0]
if initial_polarity == '0':
initial_polarity = [1, 0]
elif initial_polarity == '4':
initial_polarity = [0, 1]
tweet = line.split(',')[-1]
outline = str(initial_polarity) + ':::' + tweet
outfile.write(outline)
except Exception as e:
print(str(e))
outfile.close()
init_process('training.1600000.processed.noemoticon.csv','train_set.csv')
我遇到了以下问题:
'ascii' codec can't encode characters in position 12-14: ordinal not in range(128)
这是没有意义的,因为我用拉丁1编码打开文件。如何停止此错误并成功解析文件?可能是输出文件编码仍然是ASCII码。您应该使用正确的编码打开它,也不必使用拉丁语-1,可能utf-8更适合您的环境