Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？_Pyspark

Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？

pyspark

Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？,pyspark,Pyspark,我正在尝试使用以下代码将数据帧保存到CSV文件中df.repartition（1）。write.CSV（'path'，sep='，'））然后在CSV文件旁边生成其他文件，如以下代码段所示如何避免在不生成CSC文件的情况下将df保存到CSV文件中？万一我不可能让熊猫从所有其他文件中读取唯一的CSV文件。考虑到有一个格式为csv.crc的文件只用于熊猫读取csv文件，您可以执行以下操作： import pandas as pd import os from os import listdir

我正在尝试使用以下代码将数据帧保存到CSV文件中

df.repartition（1）。write.CSV（'path'，sep='，'））

然后在CSV文件旁边生成其他文件，如以下代码段所示

如何避免在不生成CSC文件的情况下将df保存到CSV文件中？万一我不可能让熊猫从所有其他文件中读取唯一的CSV文件。考虑到有一个格式为csv.crc的文件只用于熊猫读取csv文件，您可以执行以下操作：

import pandas as pd
import os
from os import listdir

#you can change the suffix, csv will be the default
def find_csv_filenames( path_to_dir, suffix=".csv" ):
    filenames = listdir(path_to_dir)
    return [ filename for filename in filenames if filename.endswith( suffix ) ]

your_dir = '/your_path_here/complete_route'

csv_files = ind_csv_filenames(your_dir)

for filename in csv_files: 
  print(pd.read_csv(your_dir+"/"+filename))

如果要读取同一数据帧中的所有文件：

df = pd.DataFrame()
for filename in csv_files: 
  df = df.append(pd.read_csv(your_dir+"/"+filename), ignore_index=True)

我认为你做不到。您可以使用

foreachPartition（f）

，但需要编写自己的编写器，这将成为纯python编程问题。