Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件?

Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件?,pyspark,Pyspark,我正在尝试使用以下代码将数据帧保存到CSV文件中df.repartition(1)。write.CSV('path',sep=','))然后在CSV文件旁边生成其他文件,如以下代码段所示 如何避免在不生成CSC文件的情况下将df保存到CSV文件中?万一我不可能让熊猫从所有其他文件中读取唯一的CSV文件。考虑到有一个格式为csv.crc的文件只用于熊猫读取csv文件,您可以执行以下操作: import pandas as pd import os from os import listdir

我正在尝试使用以下代码将数据帧保存到CSV文件中
df.repartition(1)。write.CSV('path',sep=','))
然后在CSV文件旁边生成其他文件,如以下代码段所示


如何避免在不生成CSC文件的情况下将df保存到CSV文件中?万一我不可能让熊猫从所有其他文件中读取唯一的CSV文件。考虑到有一个格式为csv.crc的文件只用于熊猫读取csv文件,您可以执行以下操作:

import pandas as pd
import os
from os import listdir

#you can change the suffix, csv will be the default
def find_csv_filenames( path_to_dir, suffix=".csv" ):
    filenames = listdir(path_to_dir)
    return [ filename for filename in filenames if filename.endswith( suffix ) ]

your_dir = '/your_path_here/complete_route'

csv_files = ind_csv_filenames(your_dir)

for filename in csv_files: 
  print(pd.read_csv(your_dir+"/"+filename))
如果要读取同一数据帧中的所有文件:

df = pd.DataFrame()
for filename in csv_files: 
  df = df.append(pd.read_csv(your_dir+"/"+filename), ignore_index=True)

我认为你做不到。您可以使用
foreachPartition(f)
,但需要编写自己的编写器,这将成为纯python编程问题。