Python 将字符串列转换为datetime,允许缺少但不无效
我有一个Python 将字符串列转换为datetime,允许缺少但不无效,python,numpy,pandas,python-datetime,Python,Numpy,Pandas,Python Datetime,我有一个pandas数据框,有多列字符串表示日期,空字符串表示缺少的日期。比如说 import numpy as np import pandas as pd # expected date format is 'm/%d/%Y' custId = np.array(list(range(1,6))) eventDate = np.array(["06/10/1992","08/24/2012","04/24/2015","","10/14/2009"]) registerDate = np
pandas
数据框,有多列字符串表示日期,空字符串表示缺少的日期。比如说
import numpy as np
import pandas as pd
# expected date format is 'm/%d/%Y'
custId = np.array(list(range(1,6)))
eventDate = np.array(["06/10/1992","08/24/2012","04/24/2015","","10/14/2009"])
registerDate = np.array(["06/08/2002","08/20/2012","04/20/2015","","10/10/2009"])
# both date columns of dfGood should convert to datetime without error
dfGood = pd.DataFrame({'custId':custId, 'eventDate':eventDate, 'registerDate':registerDate})
我正在努力:
- 有效地将所有字符串均为有效日期或空的列转换为
类型的列(对于空的列,使用datetime64
)NaT
- 当任何非空字符串不符合预期格式时,引发
ValueError
ValueError
的示例:
# 2nd string invalid
registerDate = np.array(["06/08/2002","20/08/2012","04/20/2015","","10/10/2009"])
# eventDate column should convert, registerDate column should raise ValueError
dfBad = pd.DataFrame({'custId':custId, 'eventDate':eventDate, 'registerDate':registerDate})
此函数在元素级别执行我想要的操作:
from datetime import datetime
def parseStrToDt(s, format = '%m/%d/%Y'):
"""Parse a string to datetime with the supplied format."""
return pd.NaT if s=='' else datetime.strptime(s, format)
print(parseStrToDt("")) # correctly returns NaT
print(parseStrToDt("12/31/2011")) # correctly returns 2011-12-31 00:00:00
print(parseStrToDt("12/31/11")) # correctly raises ValueError
但是,我知道字符串操作不应该是np.vectorize
-d。我认为使用pandas.DataFrame.apply
可以有效地实现这一点,如下所示:
dfGood[['eventDate','registerDate']].applymap(lambda s: parseStrToDt(s)) # raises TypeError
dfGood.loc[:,'eventDate'].apply(lambda s: parseStrToDt(s)) # raises same TypeError
我猜
TypeError
与我的函数返回不同的dtype
有关,但我确实想利用动态键入并用datetime替换字符串(除非ValueError被提升)。。。那我该怎么做呢 pandas
没有一个选项可以精确地复制您想要的内容,这里有一种方法可以做到这一点,它应该相对有效
In [4]: dfBad
Out[4]:
custId eventDate registerDate
0 1 06/10/1992 06/08/2002
1 2 08/24/2012 20/08/2012
2 3 04/24/2015 04/20/2015
3 4
4 5 10/14/2009 10/10/2009
In [7]: cols
Out[7]: ['eventDate', 'registerDate']
In [9]: dts = dfBad[cols].apply(lambda x: pd.to_datetime(x, errors='coerce', format='%m/%d/%Y'))
In [10]: dts
Out[10]:
eventDate registerDate
0 1992-06-10 2002-06-08
1 2012-08-24 NaT
2 2015-04-24 2015-04-20
3 NaT NaT
4 2009-10-14 2009-10-10
In [11]: mask = pd.isnull(dts) & (dfBad[cols] != '')
In [12]: mask
Out[12]:
eventDate registerDate
0 False False
1 False True
2 False False
3 False False
4 False False
In [13]: mask.any()
Out[13]:
eventDate False
registerDate True
dtype: bool
In [14]: is_bad = mask.any()
In [23]: if is_bad.any():
...: raise ValueError("bad dates in col(s) {0}".format(is_bad[is_bad].index.tolist()))
...: else:
...: df[cols] = dts
...:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-23-579c06ce3c77> in <module>()
1 if is_bad.any():
----> 2 raise ValueError("bad dates in col(s) {0}".format(is_bad[is_bad].index.tolist()))
3 else:
4 df[cols] = dts
5
ValueError: bad dates in col(s) ['registerDate']
[4]中的:dfBad
出[4]:
客户ID事件日期注册日期
0 1 06/10/1992 06/08/2002
1 2 08/24/2012 20/08/2012
2 3 04/24/2015 04/20/2015
3 4
4 5 10/14/2009 10/10/2009
在[7]中:cols
Out[7]:['eventDate','registerDate']
在[9]中:dts=dfBad[cols].apply(lambda x:pd.to_datetime(x,errors='concurve',format='%m/%d/%Y'))
In[10]:dts
出[10]:
事件日期注册日期
0 1992-06-10 2002-06-08
2012年8月24日NaT
2 2015-04-24 2015-04-20
3纳特纳特
4 2009-10-14 2009-10-10
在[11]中:mask=pd.isnull(dts)和(dfBad[cols]!=“”)
在[12]中:掩码
出[12]:
事件日期注册日期
0假假
1假真
2假假
3假假
4假假
在[13]中:mask.any()
出[13]:
事件日期错误
注册日期为真
数据类型:bool
[14]:is_bad=mask.any()
在[23]:if是坏的。any():
…:raise VALUERROR(“列{0}中的错误日期”。格式(is_bad[is_bad]。index.tolist())
…:其他:
…:df[cols]=dts
...:
---------------------------------------------------------------------------
ValueError回溯(最近一次调用上次)
在()
1如果是坏的。任何()
---->2 raise VALUERROR(“列{0}中的错误日期”。格式(is_bad[is_bad]。index.tolist())
3其他:
4 df[cols]=dts
5.
ValueError:列['registerDate'中的日期不正确
为了进一步理解接受的答案,我用解析的日期时间替换了所有有效或缺失字符串的列,然后对其余未解析的列引发了一个错误:
dtCols = ['eventDate', 'registerDate']
dts = dfBad[dtCols].apply(lambda x: pd.to_datetime(x, errors='coerce', format='%m/%d/%Y'))
mask = pd.isnull(dts) & (dfBad[dtCols] != '')
colHasError = mask.any()
invalidCols = colHasError[colHasError].index.tolist()
validCols = list(set(dtCols) - set(invalidCols))
dfBad[validCols] = dts[validCols] # replace the completely valid/empty string cols with dates
if colHasError.any():
raise ValueError("bad dates in col(s) {0}".format(invalidCols))
# raises: ValueError: bad dates in col(s) ['registerDate']
print(dfBad) # eventDate got converted, registerDate didn't
不过,公认的答案包含了主要的见解,即继续将错误强制到
NaT
,然后用掩码将非空但无效的字符串与空字符串区分开来。您只需使用pd.to\u datetime
参数errors='concurve'
sopd.to\u datetime(x,errors='concurve'))
其中x
是您的dfcolumn@EdChum谢谢你,但是我想对无效的日期字符串提出ValueError
,我想对无效的日期字符串提出ValueError
。设置errors='concurve'
可以防止出现这种情况。但这里的要点是,对于无效或空字符串,您将获得np.NaT
(不是时间),您可以使用dropna
@EdChum将其过滤掉。空字符串与无效字符串之间存在差异,我知道并希望转到np.NaT
,如问题标题中所述以及示例parseStrToDt
Nice中所示,如果找到它们,我不希望也不想提出它们,谢谢。还有一个步骤需要做,那就是识别好的列并转换它们,只留下坏的列(将在其他地方处理),但我将把它作为一个学习练习。