调试dask.dataframe.to_拼花地板的正确原因

调试dask.dataframe.to_拼花地板的正确原因,dask,fastparquet,Dask,Fastparquet,我已经看到,在运行to_parquet函数时,列对象的类型存在一些问题。我正在运行dask版本15.1 我已使用显式转换了我的列,这有助于某些列,但不是所有列。 我得到以下错误-TypeError:内置操作的参数类型错误 添加object\u encoding='utf-8参数后,我得到以下错误-TypeError:预期的字节列表 调试此问题的最佳方法是什么? 顺便说一句,我的数据集有希伯来文字符 Thx正确的拼写是object\u encoding='utf8' 请注意,对象编码通常是每列设置

我已经看到,在运行
to_parquet
函数时,列对象的类型存在一些问题。我正在运行dask版本15.1

我已使用显式转换了我的列,这有助于某些列,但不是所有列。
我得到以下错误-
TypeError:内置操作的参数类型错误

添加
object\u encoding='utf-8
参数后,我得到以下错误-
TypeError:预期的字节列表

调试此问题的最佳方法是什么?
顺便说一句,我的数据集有希伯来文字符


Thx

正确的拼写是
object\u encoding='utf8'


请注意,对象编码通常是每列设置,因此您可以使用例如
object\u encoding={'a':'utf8','b':'bytes'}
。特殊值
“推断”
尝试猜测给定对象列的正确编码,但并不总是成功;这可能是您看到的第一个错误的原因。

正确的拼写是
object\u encoding='utf8'


请注意,对象编码通常是每列设置,因此您可以使用例如
object\u encoding={'a':'utf8','b':'bytes'}
。特殊值
“推断”
尝试猜测给定对象列的正确编码,但并不总是成功;这可能是您看到的第一个错误的原因。

Thx作为您的答案-但是我仍然得到了错误-
TypeError:bad参数类型用于内置操作
,即使我使用了显式的
{'colname':'utf8'…}
当utf8编码非字符串的内容时,会出现错误,您应该检查数据列,确保它只包含字符串而不包含任何字符串。在运行
to_parquet
之前,我正在使用
dd.col1=dd.col1.astype(object)
验证它是否是一个对象,并且使用时没有空值(使用
isnull()
进行检查)。我仍然得到相同的错误。问题是,所有元素都是字符串吗?比如
df['colname'].map(type).value_counts()
Thx作为您的答案-但是我仍然得到错误-
TypeError:bad参数类型用于内置操作
即使我使用了显式
{'colname':'utf8'}
当utf8对非字符串的内容进行编码时会出现错误,您应该检查数据列,确保它只包含字符串而不包含任何字符串。在运行
to_parquet
之前,我正在使用
dd.col1=dd.col1.astype(object)
验证它是否是一个对象,并且使用(通过
isnull()
检查)。我仍然得到相同的错误。问题是,所有元素都是字符串吗?比如
df['colname'].map(type).value_counts()