Python 熊猫补充说,\r"；到csv文件这归结为一个更简单的问题_Python_Python 3.x_Pandas_Csv

Python 熊猫补充说,\r"；到csv文件这归结为一个更简单的问题

python python-3.x pandas csv

Python 熊猫补充说,\r"；到csv文件这归结为一个更简单的问题,python,python-3.x,pandas,csv,Python,Python 3.x,Pandas,Csv,我有一个熊猫数据框，看起来像这样： In [1]: df Out[1]: 0 1 0 a A\nB\nC 1 a D\nE\nF 2 b A\nB\nC 当我将其写入csv文件，然后将其读回时，我希望具有相同的数据帧。情况并非如此： In [2]: df.to_csv("out.csv") In [3]: df = pd.read_csv("out.csv", index_col=0) In [4]: df Out[4]: 0 1

我有一个熊猫数据框，看起来像这样：

In [1]: df
Out[1]:
   0        1
0  a  A\nB\nC
1  a  D\nE\nF
2  b  A\nB\nC

当我将其写入csv文件，然后将其读回时，我希望具有相同的数据帧。情况并非如此：

In [2]: df.to_csv("out.csv")

In [3]: df = pd.read_csv("out.csv", index_col=0)

In [4]: df
Out[4]:
   0            1
0  a  A\r\nB\r\nC
1  a  D\r\nE\r\nF
2  b  A\r\nB\r\nC

在每个

\n

之前添加一个

\r

字符。再读一遍，同样的事情也会发生：

In [5]: df.to_csv("out.csv")

In [6]: df = pd.read_csv("out.csv", index_col=0)

In [7]: df
Out[7]:
   0                1
0  a  A\r\r\nB\r\r\nC
1  a  D\r\r\nE\r\r\nF
2  b  A\r\r\nB\r\r\nC

如何阻止pandas添加

\r

字符

编辑：
是的，我在窗户上。

pd.read\u csv（pd.compat.StringIO（df.to\u csv（index=False））

给了我相同的数据帧，所以问题似乎是写入文件

以二进制模式传递打开的文件对象，如下所示：

with open("out.csv", "wb") as file:
    df.to_csv(file)

结果：

TypeError                                 Traceback (most recent call last)
<ipython-input-20-f31d52fb2ce3> in <module>()
      1 with open("out.csv", "wb") as file:
----> 2     df.to_csv(file)
      3

C:\Program Files\Anaconda3\lib\site-packages\pandas\core\frame.py in to_csv(self, path_or_buf, sep, na_rep, float_format, columns, header, index, index_label, mode, encoding, compression, quoting, quotechar, line_terminator, chunksize, tupleize_cols, date_format, doublequote, escapechar, decimal, **kwds)
   1342                                      doublequote=doublequote,
   1343                                      escapechar=escapechar, decimal=decimal)
-> 1344         formatter.save()
   1345
   1346         if path_or_buf is None:

C:\Program Files\Anaconda3\lib\site-packages\pandas\formats\format.py in save(self)
   1549
   1550             else:
-> 1551                 self._save()
   1552
   1553         finally:

C:\Program Files\Anaconda3\lib\site-packages\pandas\formats\format.py in _save(self)
   1636     def _save(self):
   1637
-> 1638         self._save_header()
   1639
   1640         nrows = len(self.data_index)

C:\Program Files\Anaconda3\lib\site-packages\pandas\formats\format.py in _save_header(self)
   1632
   1633         # write out the index label line
-> 1634         writer.writerow(encoded_labels)
   1635
   1636     def _save(self):

TypeError: a bytes-like object is required, not 'str'

我的python版本是

python 3.5.2:：Anaconda 4.2.0（64位）

我已确定问题出在熊猫。请阅读_csv而不是熊猫。至_csv

In [1]: df
Out[1]:
   0        1
0  a  A\nB\nC
1  a  D\nE\nF
2  b  A\nB\nC

In [2]: df.to_csv("out.csv")

In [3]: with open("out.csv", "r") as file:
    ...:     s = file.read()
    ...:

In [4]: s  # Only to_csv has been used, no \r's!
Out[4]: ',0,1\n0,a,"A\nB\nC"\n1,a,"D\nE\nF"\n2,b,"A\nB\nC"\n'

In [5]: pd.read_csv("out.csv")  # Now the \r's come in
Out[5]:
   Unnamed: 0  0            1
0           0  a  A\r\nB\r\nC
1           1  a  D\r\nE\r\nF
2           2  b  A\r\nB\r\nC

正如一些人在上面的评论和您在参考文章中所说的，这是序列化换行符时典型的windows问题。这个问题也在github上报道过

希望在Python3上，您可以指定换行符：

with open("out.csv", mode='w', newline='\n') as f:
    df.to_csv(f, sep=",", line_terminator='\n', encoding='utf-8')

你在windows上吗？试试这个：

f=open（'out.csv'，'wb'）；df.to_csv（f）

您是否尝试了

sep

参数

df=pd.read\u csv（“out.csv”，sep='\r\n'，index\u col=0）

pd.read\u csv（pd.compat.StringIO（df.to\u csv（index=False））

在Ubuntu上为我加载相同的数据帧。@ayhan是的，我认为这是windows的问题-windows附加回车换行符（有历史意义，但我不确定它是什么）。

with open("out.csv", mode='w', newline='\n') as f:
    df.to_csv(f, sep=",", line_terminator='\n', encoding='utf-8')