Python 使用dask阅读时如何跳过错误行？_Python_Dask

Python 使用dask阅读时如何跳过错误行？

python dask

Python 使用dask阅读时如何跳过错误行？,python,dask,Python,Dask,我试图用dask读取一个.txt文件（大约700万行）。但是，有4000行与列的数据类型不匹配： +-----------------------------+--------+----------+ | Column | Found | Expected | +-----------------------------+--------+----------+ | Pro_3FechaAprobacion | object | int6

我试图用dask读取一个.txt文件（大约700万行）。但是，有4000行与列的数据类型不匹配：

+-----------------------------+--------+----------+
| Column                      | Found  | Expected |
+-----------------------------+--------+----------+
| Pro_3FechaAprobacion        | object | int64    |
| Pro_3FechaCancelContractual | object | int64    |
| Pro_3FechaDesembolso        | object | int64    |
+-----------------------------+--------+----------+

The following columns also raised exceptions on conversion:

- Pro_3FechaAprobacion
  ValueError("invalid literal for int() with base 10: '200904XX'")
- Pro_3FechaCancelContractual
  ValueError("invalid literal for int() with base 10: '        '")
- Pro_3FechaDesembolso
  ValueError("invalid literal for int() with base 10: '200904XX'")

我知道这些是日期列，它们的格式类似于%Y%m%d，但有些记录类似于%Y%mXX。我想在使用时跳过这些选项：

df = pd.read_csv("file.txt",error_bad_lines=False)

在dask中有什么方法可以做到这一点吗？

这个

error\u bad\u lines=False

关键字取自

pandas.read\u csv

。我不认为它支持你想要的行为。你可以考虑用<代码>熊猫As/Cuth-TAG来询问同样的问题，看看是否熟悉熊猫的RealthCSV功能可以提供一些建议。

dask.dataframe.read\u csv

函数仅使用该代码