Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径_Json_Apache Spark_Pyspark

Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径

json apache-spark pyspark

Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径,json,apache-spark,pyspark,Json,Apache Spark,Pyspark,我正在编写一个pyspark应用程序，它读取存储在S3中的json文件（从相对路径） rdd=spark.read.json（“s3://data/19-11-*/Test-*.json”，multiLine=True）我得到一个例外，因为文件夹19-11-15包含一个包含“：”的文件名我知道spark/hadoop不接受包含“：”的文件名，但我希望spark只读以“Test”开头的文件，这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”

我正在编写一个pyspark应用程序，它读取存储在S3中的json文件（从相对路径）

rdd=spark.read.json（“s3://data/19-11-*/Test-*.json”，multiLine=True）

我得到一个例外，因为文件夹19-11-15包含一个包含“：”的文件名

我知道spark/hadoop不接受包含“：”的文件名，但我希望spark只读以“Test”开头的文件，这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”的情况

以草稿开头的文件是由另一个应用程序生成的，我无法更改其名称以删除“：”

当我以19-11-15的特定文件夹为目标时，应用程序运行良好：不会出现错误

rdd=spark.read.json（“s3://data/19-11-15/Test-*.json”，multiLine=True）

你知道如何克服这个问题吗

多谢各位

java.net.URISyntaxException: Relative path in absolute URI: draft_311819_2019-11-05T17:09:22.812Z.json'
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 274, in json
    return self._df(self._jreader.json(self._spark._sc._jvm.PythonUtils.toSeq(path)))
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 79, in deco
    raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)