Python 我有一个大容量的csv文件,我想在字典中读取它,然后再将字典写入新的csv文件,

Python 我有一个大容量的csv文件,我想在字典中读取它,然后再将字典写入新的csv文件,,python,csv,dictionary,Python,Csv,Dictionary,我在批量csv文件中有以下行: 日期、id、站点、链接、链接日期、计数、连接 2019010210000000204197,谷歌网站,1,2,1,5 2019010210000000204197,yahoo.com,2,2,1,5 2019010210000000204197,雅虎网站,1,2,2,3 2019010241602323232,google.com,4,11,3 2019010241602323232,google.com,1,3,1,7 基于身份证和网站,我想把它们删除 1000

我在批量csv文件中有以下行: 日期、id、站点、链接、链接日期、计数、连接

2019010210000000204197,谷歌网站,1,2,1,5

2019010210000000204197,yahoo.com,2,2,1,5

2019010210000000204197,雅虎网站,1,2,2,3

2019010241602323232,google.com,4,11,3

2019010241602323232,google.com,1,3,1,7

基于身份证和网站,我想把它们删除

100000000004197,谷歌网站,1,2,1,5

100000000004197,雅虎网站,3,4,3,8

2019010241602323232,google.com,5,4,2,10

您可以使用Pandas'和用于此目的。

您可以使用Pandas'和用于此目的。

在这里

现在使用神奇熊猫模块(以及一大堆开源贡献者)。请参阅这里的文档

为了获得要显示的所有id,而不是忽略重复的id,我们使用reset_索引

df.groupby(['id', 'site']).sum().reset_index() 

如果您在生活/职业生涯中大量使用数据,请查看jupyter笔记本或jupyter实验室:

祝您好运,欢迎使用SO和python开源数据。

在这里

现在使用神奇熊猫模块(以及一大堆开源贡献者)。请参阅这里的文档

为了获得要显示的所有id,而不是忽略重复的id,我们使用reset_索引

df.groupby(['id', 'site']).sum().reset_index() 

如果您在生活/职业生涯中大量使用数据,请查看jupyter笔记本或jupyter实验室:


祝您好运,欢迎使用SO和python开源数据。

Hi@Mahmoud Odeh,欢迎使用SO。请在数据示例中命名您的列,并明确说明您要添加的内容(哪些列)?例如,先显示输入,然后显示预期的输出。在我看来,这就像是您要从csv读取整个dict,然后执行groupby@ivan7707我编辑了主要问题,你能帮我吗先生:)嗨@Mahmoud Odeh,欢迎来到SO。你能在你的数据样本中列出你的列,并明确你想要添加什么吗(哪些列)?例如,显示输入,然后显示预期的输出。在我看来,这就像是您将使用from_csv读取整个dict,然后执行groupby@ivan7707我编辑主要问题,你能帮我吗先生:)
df.groupby(['id', 'site']).sum().reset_index()