Python 为什么当我使用.astype(str)时numpy/pandas只返回第一个字符

Python 为什么当我使用.astype(str)时numpy/pandas只返回第一个字符,python,numpy,pandas,Python,Numpy,Pandas,我试图使用.astype()函数将int32转换为字符串。我第一次注意到这一点是在尝试在熊猫系列上使用转换时,但当我使用numpy进行测试时,我看到了相同的行为,因此我假设numpy是根本原因 In [0]: import numpy as np In [1]: test = np.array([1, 22, 333, 4444]) In [2]: test.astype(str) Out [2]: array(['1', '2', '3'], dtype='|S1'

我试图使用.astype()函数将int32转换为字符串。我第一次注意到这一点是在尝试在熊猫系列上使用转换时,但当我使用numpy进行测试时,我看到了相同的行为,因此我假设numpy是根本原因

In [0]: import numpy as np
In [1]: test = np.array([1, 22, 333, 4444])
In [2]: test.astype(str)
Out [2]: array(['1', '2', '3'],
              dtype='|S1')
为什么它默认为S1而不是S4,正如我所期望的那样,以捕获整个长度?这看起来很简单,但也许我遗漏了什么?当我明确指定S3(或更高版本)时,它可以正常工作:

In [3]: test.astype('S10')
Out [3]: array(['1', '22', '333', '4444'],
              dtype='|S10')

根据我在网上看到的例子,我似乎不应该这样指定。我已经安装了numpy 1.6.1。

在1.7.1中它工作正常。这可能是一只虫子

In [11]: test = np.array([1, 22, 333, 4444])
In [12]: test.astype(str)
Out[12]: array(['1', '22', '333', '4444'], dtype='|S24')
In [13]: np.version.version
Out[13]: '1.7.1'

当您输入65个字符时,您还将遇到另一个问题,即
numpy
,但pandas可以解决这个问题,因为每个
str
对象都存储为指向Python对象的不透明指针,而不是
numpy.string\uquo
类型

In [18]: from pandas.util.testing import rands

In [19]: s = Series([rands(120) for _ in range(10)])

In [20]: s
Out[20]:
0    LdeUwCKNFi4SWWfnAsKK3VIdDegy35lokoOr5DfCePoGn2...
1    xXmofyBFUfCiApbqNEDtJs6JhU0QAhIG8sQRCKkKMdTZuZ...
2    t3XcQFDQhg8BxAc9vFeo5Ky6beMxp9IGj54u3OzELR8lRf...
3    tWufKLo4OiW8lMpB8NiHzy0REAnAtAmLrDJyLzi1GBSRwS...
4    bysGao2rhiqxfmv54eDT6qcshlk0E7srrRLnuBDRRu7oVg...
5    AYIZFysXR9vispYQEfwqaZ20YYvR52pPkBtd2acOapK3Mv...
6    eLAwKopRuynrY75dn7vEfUnqhoSDLh5mGSBclFDaItwyxJ...
7    oj8ilX2EvhegAI4FvZQxJU0hTDR04aLySNdCXPmqOLa6CF...
8    5mEX5o23PMg5yWEE6bofk5tqzPCFNNCIn1v3ynYxicVXa8...
9    c2fS5Z1w7IxKq72x5KM8WhNChfrEJoFavdD1DQUJn4NCNP...
dtype: object

In [21]: s.astype(str).map(len)
Out[21]:
0    120
1    120
2    120
3    120
4    120
5    120
6    120
7    120
8    120
9    120
dtype: int64

In [22]: map(len, s.values.astype(str))
Out[22]: [64, 64, 64, 64, 64, 64, 64, 64, 64, 64]
公平地说,这在pull请求中得到了修复,在numpy 1.8中得到了修复

编辑:解决最初的问题(将
int
数组转换为
str
数组),因为您已将其标记为
pandas
,所以您可以执行以下操作

In [4]: s = Series([1, 22, 333, 4444])

In [5]: s
Out[5]:
0       1
1      22
2     333
3    4444
dtype: int64

In [6]: s.astype(str)
Out[6]:
0       1
1      22
2     333
3    4444
dtype: object
In [3]: s = Series([1, 22, 333, 4444])

In [4]: s.map(str)
Out[4]:
0       1
1      22
2     333
3    4444
dtype: object
这将在早于1.7版本的
numpy
中工作,但您必须升级到更高版本的
pandas
,至少一个。或者你也可以这样做

In [4]: s = Series([1, 22, 333, 4444])

In [5]: s
Out[5]:
0       1
1      22
2     333
3    4444
dtype: int64

In [6]: s.astype(str)
Out[6]:
0       1
1      22
2     333
3    4444
dtype: object
In [3]: s = Series([1, 22, 333, 4444])

In [4]: s.map(str)
Out[4]:
0       1
1      22
2     333
3    4444
dtype: object

它应该适用于任何
pandas
版本,该版本在
Series
对象上具有
map
方法,以及
pandas

>np.array(['a'*500])array(['aaa..*snip*.aaa'],dtype='S500')支持的任何numpy版本。
似乎工作正常,你能详细说明一下吗?你不是在调用
astype
。错误发生在调用
astype
时,而不是在显式构造数组时。是的,在升级时工作正常。不过,我只是假设是我,因为我几乎从未在核心numpy函数中遇到过bug!