调试dask.dataframe.to_拼花地板的正确原因
我已经看到,在运行调试dask.dataframe.to_拼花地板的正确原因,dask,fastparquet,Dask,Fastparquet,我已经看到,在运行to_parquet函数时,列对象的类型存在一些问题。我正在运行dask版本15.1 我已使用显式转换了我的列,这有助于某些列,但不是所有列。 我得到以下错误-TypeError:内置操作的参数类型错误 添加object\u encoding='utf-8参数后,我得到以下错误-TypeError:预期的字节列表 调试此问题的最佳方法是什么? 顺便说一句,我的数据集有希伯来文字符 Thx正确的拼写是object\u encoding='utf8' 请注意,对象编码通常是每列设置
to_parquet
函数时,列对象的类型存在一些问题。我正在运行dask版本15.1
我已使用显式转换了我的列,这有助于某些列,但不是所有列。我得到以下错误-
TypeError:内置操作的参数类型错误
添加
object\u encoding='utf-8
参数后,我得到以下错误-TypeError:预期的字节列表
调试此问题的最佳方法是什么?顺便说一句,我的数据集有希伯来文字符
Thx正确的拼写是
object\u encoding='utf8'
请注意,对象编码通常是每列设置,因此您可以使用例如
object\u encoding={'a':'utf8','b':'bytes'}
。特殊值“推断”
尝试猜测给定对象列的正确编码,但并不总是成功;这可能是您看到的第一个错误的原因。正确的拼写是object\u encoding='utf8'
请注意,对象编码通常是每列设置,因此您可以使用例如
object\u encoding={'a':'utf8','b':'bytes'}
。特殊值“推断”
尝试猜测给定对象列的正确编码,但并不总是成功;这可能是您看到的第一个错误的原因。Thx作为您的答案-但是我仍然得到了错误-TypeError:bad参数类型用于内置操作
,即使我使用了显式的{'colname':'utf8'…}
当utf8编码非字符串的内容时,会出现错误,您应该检查数据列,确保它只包含字符串而不包含任何字符串。在运行to_parquet
之前,我正在使用dd.col1=dd.col1.astype(object)
验证它是否是一个对象,并且使用时没有空值(使用isnull()
进行检查)。我仍然得到相同的错误。问题是,所有元素都是字符串吗?比如df['colname'].map(type).value_counts()
Thx作为您的答案-但是我仍然得到错误-TypeError:bad参数类型用于内置操作
即使我使用了显式{'colname':'utf8'}
当utf8对非字符串的内容进行编码时会出现错误,您应该检查数据列,确保它只包含字符串而不包含任何字符串。在运行to_parquet
之前,我正在使用dd.col1=dd.col1.astype(object)
验证它是否是一个对象,并且使用(通过isnull()
检查)。我仍然得到相同的错误。问题是,所有元素都是字符串吗?比如df['colname'].map(type).value_counts()