Apache spark Pyspark读取包含csv的7z压缩文件_Apache Spark_Pyspark

Apache spark Pyspark读取包含csv的7z压缩文件

apache-spark pyspark

Apache spark Pyspark读取包含csv的7z压缩文件,apache-spark,pyspark,Apache Spark,Pyspark,如何在Pyspark中读取7z压缩文件我尝试创建数据帧，如下所示： df = spark.read.csv("s3a://test-bucket/dev/test.7z", sep='|') df.show（）显示的数据如下所示- +--------------------+ | _c0| +--------------------+ | 7z��'��Ȥ�| |$��...| |Ӹ�<�Y[�0�O��!g��| | jMi�,�K\

如何在Pyspark中读取7z压缩文件

我尝试创建数据帧，如下所示：

df = spark.read.csv("s3a://test-bucket/dev/test.7z", sep='|')

df.show（）

显示的数据如下所示-

+--------------------+
|                 _c0|
+--------------------+
|        7z��'��Ȥ�|
|$��...|
|Ӹ�<�Y[�0�O���!g���|
| jMi�,�K\T�@�ّ���...|
|o\�*l��vg'BS�s�...|
|I�N�t  ���Ni��?ޣ�...|
|V�!�?g`�]�%ޚ�i�V...|
|�����p �Bj*���mv...|
|              �>d�UH|
|�,i��e�k�z�)�Pj...|
|�����Mn���Eo�,...|
|�ux D���)6��^6�j...|
|�쥲���o�}�~S#N��...|
|6*�(au���9��Lq'2�...|
|]�R��J!6 a�m�c�i...|
|�H�_Ae1�P��} JZ��...|
|�z~O�@SG   �̬H��@...|
|+V`(/���D��Z� ...|
|ز����[�6�z��<:��...|
|                 NH�|
+--------------------+

+--------------------+
|_c0|
+--------------------+
|7z��'��Ȥ�|
|$��...|
|Ӹ�sc.textFile（“s3a://test bucket/dev/test.7z”）.toDF（）工作吗？
不工作@pault谢谢