Python 将两个csv数据混合在一起
我需要在1中混合2个csv。我在列表中都转换了,因为我认为这是最好的方法!另外,请记住,Python 将两个csv数据混合在一起,python,python-2.7,Python,Python 2.7,我需要在1中混合2个csv。我在列表中都转换了,因为我认为这是最好的方法!另外,请记住,客户端和日期在不同的列中,可能两个文件中的数据顺序不同 列表1 csv: Cliente Fecha Status interlatin 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate interlatin 31/12/2017 Alerta Fillrate -- Increment
客户端
和日期
在不同的列中,可能两个文件中的数据顺序不同
列表1 csv:
Cliente Fecha Status
interlatin 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
interlatin 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
mmmm 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
mmmm 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
KKKKK 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
KKKKK 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
列表2 csv:
Fecha Cliente Subastas Impresiones_exchange Fill_rate Importe_a_pagar_a_medio ECPM_medio
31/12/2017 interlatin 2141801 303970 14.19 339.12 1.12
01/01/2018 interlatin 308759 70938 22.98 41.9 0.59
31/12/2017 mmmm 2141801 303970 14.19 339.12 1.12
01/01/2018 mmmm 308759 70938 22.98 41.9 0.59
31/12/2017 KKKKK 2141801 303970 14.19 339.12 1.12
01/01/2018 KKKKK 308759 70938 22.98 41.9 0.59
我要找的是:
Cliente Fecha Subastas Impresiones_exchange Fill_rate Importe_a_pagar_a_medio ECPM_medio Status
interlati 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
interlati 31/12/2017 308759 70938 22.98 41.9 0.59 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
mmmm 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
mmmm 31/12/2017 308759 70938 22.98 41.9 0.59 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
KKKKK 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
KKKKK 31/12/2017 308759 70938 22.98 41.9 0.59Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
代码:
最好将csv文件读入数据帧df1和df2
import pandas as pd
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
然后创建一个公共列:
# CREATE A MERGED COLUMN OF CLIENTE AND FECHA IN BOTH DATAFRAMES:
df1['cl_fecha'] = df1['Cliente']+"_"+df1['Fecha']
df2['cl_fecha'] = df2['Cliente']+"_"+df2['Fecha']
并合并两个数据帧(将在公共列上自动合并,条目顺序无关紧要):
输出(空条目由Nan填充):
按照注释中的建议,使用写入csv
写入新的csv文件:
df_merged.to_csv('df_merged.csv')
编辑:实际上,不需要创建合并列。只需将两个数据帧与
pd.merge(df1,df2)
合并,也会产生正确的输出。Pandasmerge
函数还有几个选项,可以根据需要使用:和?你的问题到底是什么?到目前为止,您已经解释了作为输入的内容、作为输出的内容以及您到目前为止所做的工作,但这并不是一个问题……我不能用我拥有的代码来完成这项工作,因为我需要在两个列表中搜索,并在一个列表中混合搜索列表1中的每个元素@Brunodesthuilliers您希望使用dicts(如果订单很重要,则使用OrderedDict)而不是列表,因此您可以匹配客户/日期上的行。另外,,'.join(item).split(',')
显然是无用的,或者至少它应该在一个正确的csv上-如果这些实际上是tsv(“制表符分隔值”),你必须告诉csv读者使用制表符作为分隔符(参见csv模块的文档)。好的,我该怎么做?我现在使用python@Brunodesshuilliers,我建议在底部添加一个到_csv()
调用,这样OP可以在最后得到他想要的csv。可能您没有正确地将csv文件读取到数据帧中。使用print(df1)
和print(df2)
查看每个数据帧,然后使用我的代码。
# MERGE 2 DATAFRAMES TO GET DESIRED OUTPUT:
df_merged = pd.merge(df1, df2)
print(df_merged)
Cliente Fecha Status \
0 interlatin 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
1 interlatin 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
2 mmmm 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
3 mmmm 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
4 KKKKK 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
5 KKKKK 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
cl_fecha Subastas Impresiones_exchange Fill_rate \
0 interlatin_01/01/2018 308759 70938.00 22.98
1 interlatin_31/12/2017 2141801 303970 14.19 339.12
2 mmmm_01/01/2018 308759 70938.00 22.98
3 mmmm_31/12/2017 2141801 303970 14.19 339.12
4 KKKKK_01/01/2018 308759 70938.00 22.98
5 KKKKK_31/12/2017 2141801 303970 14.19 339.12
Importe_a_pagar_a_medio ECPM_medio
0 41.90 0.59
1 1.12 NaN
2 41.90 0.59
3 1.12 NaN
4 41.90 0.59
5 1.12 NaN
df_merged.to_csv('df_merged.csv')