Python 熊猫-写入包含unicode的excel文件-IllegalCharacterError_Python_Unicode_Pandas_Export To Excel

Python 熊猫-写入包含unicode的excel文件-IllegalCharacterError

python unicode pandas

Python 熊猫-写入包含unicode的excel文件-IllegalCharacterError,python,unicode,pandas,export-to-excel,Python,Unicode,Pandas,Export To Excel,我有以下代码： import pandas as pd x = [u'string with some unicode: \x16'] df = pd.DataFrame(x) 如果我尝试将此数据框写入excel文件： df.to_excel("test.xlsx") 或者，如果我尝试使用utf-8编码将此数据框编写为excel文件： ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'}) df.to_excel(ew)

我有以下代码：

import pandas as pd

x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)

如果我尝试将此数据框写入excel文件：

df.to_excel("test.xlsx")

或者，如果我尝试使用utf-8编码将此数据框编写为excel文件：

ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)

我得到以下错误：

IllegalCharacterError                     Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
      1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
      2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
     86                 else:
     87                     kwargs[new_arg_name] = new_arg_value
---> 88             return func(*args, **kwargs)
     89         return wrapper
     90     return _deprecate_kwarg

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
   1258         formatted_cells = formatter.get_formatted_cells()
   1259         excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260                                  startrow=startrow, startcol=startcol)
   1261         if need_save:
   1262             excel_writer.save()

/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
    679             colletter = get_column_letter(startcol + cell.col + 1)
    680             xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681             xcell.value = _conv_value(cell.val)
    682             style_kwargs = {}
    683 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
    360     def value(self, value):
    361         """Set the value and infer type and display options."""
--> 362         self._bind_value(value)
    363 
    364     @property

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
    269             elif self.guess_types:
    270                 value = self._infer_value(value)
--> 271         self.set_explicit_value(value, self.data_type)
    272 
    273 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
    235             raise ValueError('Invalid data type: %s' % data_type)
    236         if isinstance(value, STRING_TYPES):
--> 237             value = self.check_string(value)
    238         self._value = value
    239         self.data_type = data_type

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
    220         value = value[:32767]
    221         if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222             raise IllegalCharacterError
    223         return value
    224 

IllegalCharacterError:

IllegalCharacterError回溯（最近一次调用上次）
在（）
1 ew=pd.ExcelWriter（'test.xlsx'，options={'encoding'：'utf-8'}）
2#df.to _excel（“test.xlsx”）
---->3 df.至excel（ew）
/包装器中的usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc（*args，**kwargs）
86其他：
87 kwargs[新参数名称]=新参数值
--->88返回函数（*args，**kwargs）
89返回包装器
90返回-不推荐
/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel（self、excel_writer、sheet_name、na_rep、float_格式、列、标题、索引、索引标签、startrow、startcol、引擎、合并单元格、编码、inf_rep）
1258格式化的\u单元格=格式化程序。获取格式化的\u单元格（）
1259 excel书写器。写入单元格（格式化单元格、工作表名称、，
->1260 startrow=startrow，startcol=startcol）
1261如果需要保存：
1262 excel_writer.save（）
/写入单元格中的usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc（self、cells、sheet\u name、startrow、startcol）
679 colletter=获取列字母（startcol+cell.col+1）
680 xcell=wks.cell（“%s%s”%”（收集器，startrow+cell.row+1））
-->681 xcell.value=_conv_value（cell.val）
682 style_kwargs={}
683
/值中的usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc（self，value）
360 def值（自身，值）：
361“设置值并推断类型和显示选项。”“”
-->362自绑定值（值）
363
364@property
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in_bind_value（self，value）
269 elif self.guess_类型：
270值=自身。推断值（值）
-->271 self.set_显式_值（值，self.data_类型）
272
273
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value（self、value、data_type）
235 raise VALUERROR（'无效的数据类型：%s'%1！''数据类型）
236如果isinstance（值、字符串类型）：
-->237值=自我检查字符串（值）
238自我价值=价值
239 self.data\u type=数据类型
/检查字符串中的usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc（self，value）
220值=值[：32767]
221如果下一个（非法字符\u RE.finditer（值），无）：
-->222引发非法字符错误
223返回值
224
非法字符错误：

如何将包含unicode的pandas数据框写入excel文件？

我不知道这种特殊语言，但通常excel和UTF8会出错。如果您只是用excel以编程方式打开一个UTF8字符文件，则会损坏这些字符（它似乎不会处理字符中的所有位，但会将其截断为扩展字符中8的前2个和最后2个十六进制数）

要将utf文件正确加载到excel中，一个解决方法是让程序在加载宏（导入数据）后将其插入excel工作表。我有一些代码可以在C#中实现这一点，如果有帮助的话

您的输入是否包含任何扩展字符（即，如果将其取出，是否有效）

这不是Unicode的问题

\x16

（或在Unicode字符串中

\u0016

指同一字符）是ASCII控制码22（SYN）。Pandas说，在Excel文件中包含控制代码（制表符和换行符除外）是无效的，尽管我对Excel文件了解不多，但将它们包含在XML 1.0文件中肯定是不可能的，而XML 1.0文件就是xlsx中的文件

因此，很可能无法在Excel中包含任意字符序列（带有控制代码）。您应该在写入之前过滤掉它们，或者如果您确实需要保留原始数据，请使用仅由您的应用程序识别的某种形式的特殊编码。

使用此选项可以删除可能出现的任何错误。您可以将此帖子保存到excel

df = df.applymap(lambda x: x.encode('unicode_escape').
                 decode('utf-8') if isinstance(x, str) else x)

遇到此错误时，我通常会将文件写入

'.csv

文件，而不是

'.xlsx'

文件。所以不是

yourdataframe.to_excel('Your workbook name.xlsx')

我会：

yourdataframe.to_csv('Your workbook name.csv')

默认情况下，

pandas

解码

.csv

文件的方式如下：

encoding : string, optional
A string representing the encoding to use in the output file,
defaults to 'ascii' on Python 2 and 'utf-8' on Python 3.

另一方面，

.xlsx

文件的默认编码为：

encoding: string, default None
encoding of the resulting excel file. Only necessary for xlwt,
other writers support unicode natively.

这种差异是造成这种错误的原因。当您将以

或

开头的字符串写入

.xlsx

文件时，也会出现错误。

同样的问题也发生在我身上。我的解决办法如下：

首先，安装python包xlsxwriter：

pip install xlsxwriter

其次，将默认引擎“openpyxl”替换为“xlsxwriter”：

df.to_excel("test.xlsx", engine='xlsxwriter')

我在这篇文章中回答了一个类似的问题：，下面是相同的内容

如果您不想安装另一个excel writer引擎（例如xlsxwriter），您可以通过查找引发

IllegalCharacterError

的模式来删除这些非法字符

打开路径

/path/to/your/python/site packages/openpyxl/cell/

下的

cell.py

，查找

check\u string

函数，您将看到它使用定义的正则表达式模式

非法字符来查找那些非法字符。尝试查找其定义时，您将看到以下行：
非法字符\u RE=RE.compile（r'[\000-\010].[\013-\014].[\016-\037]'）

%pip install xlsxwriter
from pandas import ExcelWriter
import xlsxwriter
writer = ExcelWriter('notes.xlsx')
for key in dict_df:
        data[key].to_excel(writer, key,index=False,engine='xlsxwriter')
writer.save()