Python 如何在一个巨大的数据集中查找和转换数据帧中缺少的值?

Python 如何在一个巨大的数据集中查找和转换数据帧中缺少的值?,python,pandas,machine-learning,data-science,Python,Pandas,Machine Learning,Data Science,我正在处理一个大数据集(891221 X 85)。数据中的每列都有不同的缺失值或未知值指示。例如:第1列缺失值用-1或X表示,第2列缺失值用XX和0表示,以此类推 现在,我尝试循环遍历数据集中的每个元素,并使用以下代码将每个缺少的值转换为np.nan: for i in range(data.shape[1]): for j in range(data.shape[0]): if data.iloc[j,i] in indicators[i]: d

我正在处理一个大数据集(891221 X 85)。数据中的每列都有不同的缺失值或未知值指示。例如:第1列缺失值用-1或X表示,第2列缺失值用XX和0表示,以此类推

现在,我尝试循环遍历数据集中的每个元素,并使用以下代码将每个缺少的值转换为np.nan:

for i in range(data.shape[1]):
    for j in range(data.shape[0]):
        if data.iloc[j,i] in indicators[i]:
            data.iloc[j,i] = np.nan
由于数据有大约7500万个数据条目,这个过程可能需要几天时间。有没有更有效的方法可以做到这一点?

试试:

枚举(data.columns)中的i、col的
:
对于ind in指示器[i]:
数据[col].replace(ind,np.nan)

文档:

非常感谢!我能用这个在10秒钟内完成。我对性能上的差异感到震惊。。。