Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径
我正在编写一个pyspark应用程序,它读取存储在S3中的json文件(从相对路径)Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径,json,apache-spark,pyspark,Json,Apache Spark,Pyspark,我正在编写一个pyspark应用程序,它读取存储在S3中的json文件(从相对路径) rdd=spark.read.json(“s3://data/19-11-*/Test-*.json”,multiLine=True) 我得到一个例外,因为文件夹19-11-15包含一个包含“:”的文件名 我知道spark/hadoop不接受包含“:”的文件名,但我希望spark只读以“Test”开头的文件,这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”
rdd=spark.read.json(“s3://data/19-11-*/Test-*.json”,multiLine=True)
我得到一个例外,因为文件夹19-11-15包含一个包含“:”的文件名
我知道spark/hadoop不接受包含“:”的文件名,但我希望spark只读以“Test”开头的文件,这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”的情况
以草稿开头的文件是由另一个应用程序生成的,我无法更改其名称以删除“:”
当我以19-11-15的特定文件夹为目标时,应用程序运行良好:不会出现错误
rdd=spark.read.json(“s3://data/19-11-15/Test-*.json”,multiLine=True)
你知道如何克服这个问题吗
多谢各位
java.net.URISyntaxException: Relative path in absolute URI: draft_311819_2019-11-05T17:09:22.812Z.json'
Traceback (most recent call last):
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 274, in json
return self._df(self._jreader.json(self._spark._sc._jvm.PythonUtils.toSeq(path)))
File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
answer, self.gateway_client, self.target_id, self.name)
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 79, in deco
raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)