spark python unicode错误_Python_Apache Spark_Unicode

spark python unicode错误

python apache-spark unicode

spark python unicode错误,python,apache-spark,unicode,Python,Apache Spark,Unicode,我正在尝试为一个特定值筛选一列的rdd，然后进行计数。但是，如果我按原样读取列，则计数为0 将列读取为“str”时，会出现unicode错误 bfcrdd = bfcfile.map(lambda l: l.split(",")).filter(lambda l:l[13] == 'Covered') bfcrdd.count() 给出计数0，而第13列中有许多值作为“覆盖”值论跑步 bfcrdd = bfcfile.map(lambda l: l.split(",")).filter(la

我正在尝试为一个特定值筛选一列的rdd，然后进行计数。但是，如果我按原样读取列，则计数为0 将列读取为“str”时，会出现unicode错误

bfcrdd = bfcfile.map(lambda l: l.split(",")).filter(lambda l:l[13] == 'Covered')
bfcrdd.count()

给出计数0，而第13列中有许多值作为“覆盖”值

论跑步

bfcrdd = bfcfile.map(lambda l: l.split(",")).filter(lambda l:str(l[13]) ==    'Covered')
bfcrdd.count()

给出错误：

UnicodeEncodeError:“ascii”编解码器无法在中对字符u'\x92'进行编码位置19：序号不在范围内（128）

这不仅是count的问题，也是collect（）和take（）的问题

试过

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

及

但是没有任何效果：（

尝试过这个？

p[13]。编码（'utf-8'）

尝试过这个？

p[13]。编码（'utf-8'）

bfcrdd = bfcrdd.map(lambda p: (p[13].encode("ascii", "ignore"))).collect()