Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径_Json_Apache Spark_Pyspark - Fatal编程技术网

Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径

Pyspark读取json:java.net.URISyntaxException:绝对URI中的相对路径,json,apache-spark,pyspark,Json,Apache Spark,Pyspark,我正在编写一个pyspark应用程序,它读取存储在S3中的json文件(从相对路径) rdd=spark.read.json(“s3://data/19-11-*/Test-*.json”,multiLine=True) 我得到一个例外,因为文件夹19-11-15包含一个包含“:”的文件名 我知道spark/hadoop不接受包含“:”的文件名,但我希望spark只读以“Test”开头的文件,这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”

我正在编写一个pyspark应用程序,它读取存储在S3中的json文件(从相对路径)

rdd=spark.read.json(“s3://data/19-11-*/Test-*.json”,multiLine=True)

我得到一个例外,因为文件夹19-11-15包含一个包含“:”的文件名

我知道spark/hadoop不接受包含“:”的文件名,但我希望spark只读以“Test”开头的文件,这显然不是文件名“draft_311819_2019-11-05T17:09:22.812Z.json”的情况

以草稿开头的文件是由另一个应用程序生成的,我无法更改其名称以删除“:”

当我以19-11-15的特定文件夹为目标时,应用程序运行良好:不会出现错误

rdd=spark.read.json(“s3://data/19-11-15/Test-*.json”,multiLine=True)

你知道如何克服这个问题吗

多谢各位

java.net.URISyntaxException: Relative path in absolute URI: draft_311819_2019-11-05T17:09:22.812Z.json'
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 274, in json
    return self._df(self._jreader.json(self._spark._sc._jvm.PythonUtils.toSeq(path)))
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 79, in deco
    raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)