Excel 导入大型csv或xlsx文件并合并的更好方法?
我想将5年H1B签证数据与jupyter笔记本中的以下代码结合起来。 5个文件(H1B_16到H1B_20)的行数超过60k,每个200mb 然而,当试图运行代码时,我的系统冻结了。不知道为什么,但可能是因为那些文件太大了 有没有更好的方法将它们结合起来用于熊猫数据帧Excel 导入大型csv或xlsx文件并合并的更好方法?,excel,pandas,csv,concat,Excel,Pandas,Csv,Concat,我想将5年H1B签证数据与jupyter笔记本中的以下代码结合起来。 5个文件(H1B_16到H1B_20)的行数超过60k,每个200mb 然而,当试图运行代码时,我的系统冻结了。不知道为什么,但可能是因为那些文件太大了 有没有更好的方法将它们结合起来用于熊猫数据帧 # listing file name filenames = [] for i in range(16,21): f = ("H1B_"+str(i)+".csv") f
# listing file name
filenames = []
for i in range(16,21):
f = ("H1B_"+str(i)+".csv")
filenames.append(f)
print(filenames)
# listing columns needed
features = '''CASE_STATUS,DECISION_DATE,VISA_CLASS,JOB_TITLE,SOC_CODE,SOC_TITLE,EMPLOYER_NAME,WORKSITE_CITY,WORKSITE_COUNTY,WORKSITE_STATE,WORKSITE_POSTAL_CODE,WAGE_RATE_OF_PAY_FROM,WAGE_UNIT_OF_PAY,PREVAILING_WAGE,PW_UNIT_OF_PAY'''
features = features.split(',')
print(features)
# selecting columns in CSV file
def h1b_col(name):
s = pd.read_csv(name)
s = s[features]
return s
# concatenate files in the list
combined_csv = pd.concat([h1b_col(f) for f in filenames ] )
combined_csv.to_csv("H1B_16_to_20.csv")
combined_csv
您是否已验证可以使用上述代码自行导入每个文件?@Brennan Yup。它可以导入,但在一次完成所有操作时会冻结