Python 为什么当我使用.astype(str)时numpy/pandas只返回第一个字符
我试图使用.astype()函数将int32转换为字符串。我第一次注意到这一点是在尝试在熊猫系列上使用转换时,但当我使用numpy进行测试时,我看到了相同的行为,因此我假设numpy是根本原因Python 为什么当我使用.astype(str)时numpy/pandas只返回第一个字符,python,numpy,pandas,Python,Numpy,Pandas,我试图使用.astype()函数将int32转换为字符串。我第一次注意到这一点是在尝试在熊猫系列上使用转换时,但当我使用numpy进行测试时,我看到了相同的行为,因此我假设numpy是根本原因 In [0]: import numpy as np In [1]: test = np.array([1, 22, 333, 4444]) In [2]: test.astype(str) Out [2]: array(['1', '2', '3'], dtype='|S1'
In [0]: import numpy as np
In [1]: test = np.array([1, 22, 333, 4444])
In [2]: test.astype(str)
Out [2]: array(['1', '2', '3'],
dtype='|S1')
为什么它默认为S1而不是S4,正如我所期望的那样,以捕获整个长度?这看起来很简单,但也许我遗漏了什么?当我明确指定S3(或更高版本)时,它可以正常工作:
In [3]: test.astype('S10')
Out [3]: array(['1', '22', '333', '4444'],
dtype='|S10')
根据我在网上看到的例子,我似乎不应该这样指定。我已经安装了numpy 1.6.1。在1.7.1中它工作正常。这可能是一只虫子
In [11]: test = np.array([1, 22, 333, 4444])
In [12]: test.astype(str)
Out[12]: array(['1', '22', '333', '4444'], dtype='|S24')
In [13]: np.version.version
Out[13]: '1.7.1'
当您输入65个字符时,您还将遇到另一个问题,即
numpy
,但pandas可以解决这个问题,因为每个str
对象都存储为指向Python对象的不透明指针,而不是numpy.string\uquo
类型
In [18]: from pandas.util.testing import rands
In [19]: s = Series([rands(120) for _ in range(10)])
In [20]: s
Out[20]:
0 LdeUwCKNFi4SWWfnAsKK3VIdDegy35lokoOr5DfCePoGn2...
1 xXmofyBFUfCiApbqNEDtJs6JhU0QAhIG8sQRCKkKMdTZuZ...
2 t3XcQFDQhg8BxAc9vFeo5Ky6beMxp9IGj54u3OzELR8lRf...
3 tWufKLo4OiW8lMpB8NiHzy0REAnAtAmLrDJyLzi1GBSRwS...
4 bysGao2rhiqxfmv54eDT6qcshlk0E7srrRLnuBDRRu7oVg...
5 AYIZFysXR9vispYQEfwqaZ20YYvR52pPkBtd2acOapK3Mv...
6 eLAwKopRuynrY75dn7vEfUnqhoSDLh5mGSBclFDaItwyxJ...
7 oj8ilX2EvhegAI4FvZQxJU0hTDR04aLySNdCXPmqOLa6CF...
8 5mEX5o23PMg5yWEE6bofk5tqzPCFNNCIn1v3ynYxicVXa8...
9 c2fS5Z1w7IxKq72x5KM8WhNChfrEJoFavdD1DQUJn4NCNP...
dtype: object
In [21]: s.astype(str).map(len)
Out[21]:
0 120
1 120
2 120
3 120
4 120
5 120
6 120
7 120
8 120
9 120
dtype: int64
In [22]: map(len, s.values.astype(str))
Out[22]: [64, 64, 64, 64, 64, 64, 64, 64, 64, 64]
公平地说,这在pull请求中得到了修复,在numpy 1.8中得到了修复
编辑:解决最初的问题(将int
数组转换为str
数组),因为您已将其标记为pandas
,所以您可以执行以下操作
In [4]: s = Series([1, 22, 333, 4444])
In [5]: s
Out[5]:
0 1
1 22
2 333
3 4444
dtype: int64
In [6]: s.astype(str)
Out[6]:
0 1
1 22
2 333
3 4444
dtype: object
In [3]: s = Series([1, 22, 333, 4444])
In [4]: s.map(str)
Out[4]:
0 1
1 22
2 333
3 4444
dtype: object
这将在早于1.7版本的numpy
中工作,但您必须升级到更高版本的pandas
,至少一个。或者你也可以这样做
In [4]: s = Series([1, 22, 333, 4444])
In [5]: s
Out[5]:
0 1
1 22
2 333
3 4444
dtype: int64
In [6]: s.astype(str)
Out[6]:
0 1
1 22
2 333
3 4444
dtype: object
In [3]: s = Series([1, 22, 333, 4444])
In [4]: s.map(str)
Out[4]:
0 1
1 22
2 333
3 4444
dtype: object
它应该适用于任何
pandas
版本,该版本在Series
对象上具有map
方法,以及pandas
>np.array(['a'*500])array(['aaa..*snip*.aaa'],dtype='S500')支持的任何numpy版本。
似乎工作正常,你能详细说明一下吗?你不是在调用astype
。错误发生在调用astype
时,而不是在显式构造数组时。是的,在升级时工作正常。不过,我只是假设是我,因为我几乎从未在核心numpy函数中遇到过bug!