Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/305.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python统计csv列中唯一元素的数量_Python_Csv_Pandas_Unique_Counter - Fatal编程技术网

python统计csv列中唯一元素的数量

python统计csv列中唯一元素的数量,python,csv,pandas,unique,counter,Python,Csv,Pandas,Unique,Counter,我正在尝试使用Python获取csv列中唯一项的计数 示例CSV文件(没有标题): 到目前为止我已经试过了 import csv from collections import defaultdict, Counter input_file = open('Results/1_sample.csv') csv_reader = csv.reader(input_file, delimiter=',') data = defaultdict(list) for row in csv_reade

我正在尝试使用Python获取csv列中唯一项的计数

示例CSV文件(没有标题):

到目前为止我已经试过了

import csv
from collections import defaultdict, Counter

input_file = open('Results/1_sample.csv')
csv_reader = csv.reader(input_file, delimiter=',')

data = defaultdict(list)
for row in csv_reader:
    data[row[0]].append(row[1])
for k, v in data.items():
    print k
    print Counter(v)
这将以以下格式提供输出:

AB
Counter({'asd': 2, 'poi': 1})
BG
Counter({'asd': 1, 'put': 1})
但我希望我的输出是:

AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]
使用:

键“BG”出现两次独特的时间
键“AB”出现2次,时间不限


您正在查找SeriesGroupby方法:


谢谢你的回答。但是我需要AB计数只有2,而不是3(因为asd在AB的[1]列中重复)啊,所以您要寻找完全唯一的条目,然后按键计数?是的。很抱歉我的措辞不好。它看起来很有希望,但我得到了
pandas.hashtable.PyObjectHashTable.get\u item key错误:0
。我将尝试修复并更新。0和1是上述数据框中的列名,您的列名可能不同?(这将按第0列进行分组,并计算第1列中每个组的唯一元素数。)它们对“我的数据”也是相同的。@pam还可以使用
len(df[1].unique())
获取组的总数。好吧,不知道为什么,你从永远都能做到这一点,也许列名是字符串
'0'
?我的错。你说得对。我忘了给header=None,它正在考虑将第一行作为header。它工作得很好!非常感谢你![1]列中有两个唯一的值,即asd和poi@PadraicCunningham确定要删除重复项,而不是计算实际唯一值吗?@PadraicCunningham是的,删除重复项,然后获取计数。
AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]
data = (('AB', 'asd'),
    ('AB', 'poi'),
    ('AB', 'asd'),
    ('BG', 'put'),
    ('BG', 'asd'))
unique_items = set(data)
keys = [[entry[0] for entry in unique_items]]
for key in set(keys):
    print("Key '{}' appears {} unique times".format(key, keys.count(key)))
In [11]: df
Out[11]:
    0    1
0  AB  asd
1  AB  poi
2  AB  asd
3  BG  put
4  BG  asd

In [12]: g = df.groupby(0)

In [13]: g[1].nunique()
Out[13]:
0
AB    2
BG    2
Name: 1, dtype: int64