Python pyspark字数错误:ValueError:空分隔符

Python pyspark字数错误:ValueError:空分隔符,python,split,pyspark,Python,Split,Pyspark,这是hdfs上的s84.txt,我想对其进行wordcount: [paslechoix@gw03~]$hdfs dfs-cat s84.txt Lorem Ipsum只是个傀儡 印刷和排版行业的文本。Lorem Ipsum已被删除 自16世纪以来,行业标准的虚拟文本 当一个不知名的印刷商拿着一个铅字厨房,把它弄得乱七八糟的时候 样书。它不仅存活了五个世纪,而且 也是向电子排版的飞跃, 基本保持不变。它在20世纪60年代开始流行 发布包含Lorem Ipsum通道的Letraset表,以及 最近

这是hdfs上的s84.txt,我想对其进行wordcount:

[paslechoix@gw03~]$hdfs dfs-cat s84.txt Lorem Ipsum只是个傀儡 印刷和排版行业的文本。Lorem Ipsum已被删除 自16世纪以来,行业标准的虚拟文本

当一个不知名的印刷商拿着一个铅字厨房,把它弄得乱七八糟的时候 样书。它不仅存活了五个世纪,而且 也是向电子排版的飞跃,

基本保持不变。它在20世纪60年代开始流行 发布包含Lorem Ipsum通道的Letraset表,以及 最近,像Aldus这样的桌面发布软件

PageMaker包括Lorem Ipsum的版本

错误:

ValueError:空分隔符

我错过了什么?非常感谢。

来自官方:

使用sep作为分隔符字符串,返回字符串中的单词列表

split()
需要分隔符。您正在使用参数为
拆分(”
),它是一个空字符串

>>> '1,2,3'.split(',')
['1', '2', '3']

>>> '1 2 3'.split()
['1', '2', '3']

>>> "Lorem ipsum sit dolor amet".split("")
Traceback (most recent call last):
  File "<pyshell#1>", line 1, in <module>
    x.split("")
ValueError: empty separator

>>> "Lorem ipsum sit dolor amet".split(" ")
['Lorem', 'ipsum', 'sit', 'dolor', 'amet']
>>“1,2,3”。拆分(','))
['1', '2', '3']
>>>“1 2 3”。拆分()
['1', '2', '3']
>>>“Lorem ipsum sit dolor amet”。拆分(“”)
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
x、 拆分(“”)
ValueError:空分隔符
>>>“Lorem ipsum sit dolor amet”。拆分(“”)
['Lorem','ipsum','sit','dolor','amet']
来自官方:

使用sep作为分隔符字符串,返回字符串中的单词列表

split()
需要分隔符。您正在使用参数为
拆分(”
),它是一个空字符串

>>> '1,2,3'.split(',')
['1', '2', '3']

>>> '1 2 3'.split()
['1', '2', '3']

>>> "Lorem ipsum sit dolor amet".split("")
Traceback (most recent call last):
  File "<pyshell#1>", line 1, in <module>
    x.split("")
ValueError: empty separator

>>> "Lorem ipsum sit dolor amet".split(" ")
['Lorem', 'ipsum', 'sit', 'dolor', 'amet']
>>“1,2,3”。拆分(','))
['1', '2', '3']
>>>“1 2 3”。拆分()
['1', '2', '3']
>>>“Lorem ipsum sit dolor amet”。拆分(“”)
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
x、 拆分(“”)
ValueError:空分隔符
>>>“Lorem ipsum sit dolor amet”。拆分(“”)
['Lorem','ipsum','sit','dolor','amet']

split()?空字符串不是有效参数,没有参数默认为空白,任何显式参数都用于拆分。注意:空行测试可能不正确。顺便说一句,您显示了
s84.txt
,但正在加载
p84.txt
。感谢您注意到缺少的空格和令人困惑的文件名。您想在
split()
上做什么?空字符串不是有效参数,没有参数默认为空白,任何显式参数都用于拆分。注意:空行测试可能不正确。顺便说一句,您显示了
s84.txt
,但正在加载
p84.txt
。感谢您注意到缺少的空格和混乱的文件名