如何使用python spark将多个数据集合并成一个完整的大数据集？_Python_Sql_Apache Spark_Bigdata

如何使用python spark将多个数据集合并成一个完整的大数据集？

python sql apache-spark

如何使用python spark将多个数据集合并成一个完整的大数据集？,python,sql,apache-spark,bigdata,Python,Sql,Apache Spark,Bigdata,我想从17个不同的csv文件中创建一个大数据集。每个都包含大约200000行和相同的列。所以我想做的就是创建一个数据帧，以便以后可以使用它我试图寻找SQL联接，但它们似乎需要一个ID才能联接。数据集不包含单个ID 如果您想用17个具有相同列的csv文件创建一个大数据框架使用glob（）列出您的文件使用生成器表达式读取文件使用concat（）方法组合它们将新数据帧写入新的csv文件试试这个： import pandas as pd from glob import glob al

我想从17个不同的csv文件中创建一个大数据集。每个都包含大约200000行和相同的列。所以我想做的就是创建一个数据帧，以便以后可以使用它

我试图寻找SQL联接，但它们似乎需要一个ID才能联接。

数据集不包含单个ID

如果您想用17个具有相同列的csv文件创建一个大数据框架

使用

glob（）

列出您的文件

使用生成器表达式读取文件

使用

concat（）

方法组合它们

将新数据帧写入新的csv文件

试试这个：

import pandas as pd
from glob import glob

all_csv_files = glob('csv_folder/*.csv')
df = pd.concat((pd.read_csv(csv_file) for csv_file in all_csv_files), ignore_index=True)
df.to_csv('final_csv.csv', index=False)

你不想加入一个专栏？那么，是否要从所有csv文件中附加数据？检查这个我之前看到的问题，但没有注意其中一个答案。。。似乎

df_concat=df.union（df2）

就可以了。一次只需要一个数据集。tks@pyofey

from functools import reduce from pyspark.sql import DataFrame dfs=[df1，df2，df3]df=reduce（DataFrame.unionAll，dfs）

这就成功了。。。现在我有一个大的数据集。可能是重复的。不使用join或union，只需一次读取所有csv文件即可创建单个数据帧。