Pandas DataFrame按两列分组并获得计数

小开

你正在寻找size:

In [11]: df.groupby(['col5', 'col2']).size()
Out[11]:
col5  col2
1     A       1
D       3
2     B       2
3     A       3
C       1
4     B       1
5     B       2
6     B       1
dtype: int64

为了得到与waitingkuo相同的答案(“第二个问题”)，但稍微干净一点，可以按级别分组:

In [12]: df.groupby(['col5', 'col2']).size().groupby(level=1).max()
Out[12]:
col2
A       3
B       2
C       1
D       3
dtype: int64

小开

最佳答案

接下来是@Andy的回答，你可以通过以下方法来解决你的第二个问题:

In [56]: df.groupby(['col5','col2']).size().reset_index().groupby('col2')[[0]].max()
Out[56]:
0
col2
A     3
B     2
C     1
D     3

小开

将数据插入pandas数据框架和提供列名. c。

import pandas as pd
df = pd.DataFrame([['A','C','A','B','C','A','B','B','A','A'], ['ONE','TWO','ONE','ONE','ONE','TWO','ONE','TWO','ONE','THREE']]).T
df.columns = [['Alphabet','Words']]
print(df)   #printing dataframe.

这是我们的打印数据:

用于创建组dataframe in pandas and counter，
你需要再提供一个列来计数分组，让我们把这个列称为，"COUNTER" in dataframe.

是这样的:

df['COUNTER'] =1       #initially, set that counter to 1.
group_data = df.groupby(['Alphabet','Words'])['COUNTER'].sum() #sum function
print(group_data)

输出:

小开

可以只使用内置函数count，后跟groupby函数

df.groupby(['col5','col2']).count()

小开

如果你想在数据帧中添加一个包含组计数的新列(例如'count_column'):

df.count_column=df.groupby(['col5','col2']).col5.transform('count')

(我选择“col5”，因为它不包含nan)

小开

只使用单个组的惯用解决方案

(df.groupby(['col5', 'col2']).size()
.sort_values(ascending=False)
.reset_index(name='count')
.drop_duplicates(subset='col2'))


col5 col2  count
0    3    A      3
1    1    D      3
2    5    B      2
6    3    C      1

解释

通过size方法进行分组的结果是一个索引中包含col5和col2的Series。从这里，你可以使用另一个groupby方法来找到col2中每个值的最大值，但这是不必要的。您可以简单地对所有值进行降序排序，然后使用drop_duplicates方法只保留第一次出现col2的行。

小开

从熊猫1.1.0开始。，你可以在DataFrame上value_counts:

out = df[['col5','col2']].value_counts().sort_index()

输出:

col5  col2
1     A       1
D       3
2     B       2
3     A       3
C       1
4     B       1
5     B       2
6     B       1
dtype: int64