熊猫 DataFrame 列中值的计数频率

我想计算每个值在数据帧中出现的次数。

这是我的数据框 -df:

    status
1     N
2     N
3     C
4     N
5     S
6     N
7     N
8     S
9     N
10    N
11    N
12    S
13    N
14    C
15    N
16    N
17    N
18    N
19    S
20    N

我想要一本计数字典:

例如 counts = {N: 14, C:2, S:4}

我试过 df['status']['N'],但它给 keyError,也 df['status'].value_counts,但没有用。

138415 次浏览

你能把 df转换成一个列表吗?

如果是:

a = ['a', 'a', 'a', 'b', 'b', 'c']
c = dict()
for i in set(a):
c[i] = a.count(i)

使用字典理解:

c = {i: a.count(i) for i in set(a)}

你可以使用 value_countsto_dict:

print df['status'].value_counts()
N    14
S     4
C     2
Name: status, dtype: int64


counts = df['status'].value_counts().to_dict()
print counts
{'S': 4, 'C': 2, 'N': 14}

一个替代的班轮使用劣势 Counter:

In [3]: from collections import Counter


In [4]: dict(Counter(df.status))
Out[4]: {'C': 2, 'N': 14, 'S': 4}

你可以试试这条路。

df.stack().value_counts().to_dict()

请参阅我在这个线程中对熊猫数据框输出的响应,

计算数据框列中某个值出现的频率

对于字典输出,可以修改如下:

def column_list_dict(x):
column_list_df = []
for col_name in x.columns:
y = col_name, len(x[col_name].unique())
column_list_df.append(y)
return dict(column_list_df)