熊猫: 查找给定列的百分位数统计信息

我有一个熊猫数据帧 my _ df,在这里我可以找到给定列的平均值()、中位数()、模式() :

my_df['field_A'].mean()
my_df['field_A'].median()
my_df['field_A'].mode()

我想知道是否有可能找到更详细的统计数据,如90% ? 谢谢!

256975 次浏览

我认为下面的方法可行:

my_df.dropna().quantile([0.0, .9])

假设系列 s

s = pd.Series(np.arange(100))

Get quantiles for [.1, .2, .3, .4, .5, .6, .7, .8, .9]

s.quantile(np.linspace(.1, 1, 9, 0))


0.1     9.9
0.2    19.8
0.3    29.7
0.4    39.6
0.5    49.5
0.6    59.4
0.7    69.3
0.8    79.2
0.9    89.1
dtype: float64

或者

s.quantile(np.linspace(.1, 1, 9, 0), 'lower')


0.1     9
0.2    19
0.3    29
0.4    39
0.5    49
0.6    59
0.7    69
0.8    79
0.9    89
dtype: int32

您可以使用 熊猫函数,如下所示。

import pandas as pd
import random


A = [ random.randint(0,100) for i in range(10) ]
B = [ random.randint(0,100) for i in range(10) ]


df = pd.DataFrame({ 'field_A': A, 'field_B': B })
df
#    field_A  field_B
# 0       90       72
# 1       63       84
# 2       11       74
# 3       61       66
# 4       78       80
# 5       67       75
# 6       89       47
# 7       12       22
# 8       43        5
# 9       30       64


df.field_A.mean()   # Same as df['field_A'].mean()
# 54.399999999999999


df.field_A.median()
# 62.0


# You can call `quantile(i)` to get the i'th quantile,
# where `i` should be a fractional number.


df.field_A.quantile(0.1) # 10th percentile
# 11.9


df.field_A.quantile(0.5) # same as median
# 62.0


df.field_A.quantile(0.9) # 90th percentile
# 89.10000000000001

您甚至可以给出多个具有空值的列,并获得多个分位数值(对于异常值处理,我使用95%)

my_df[['field_A','field_B']].dropna().quantile([0.0, .5, .90, .95])

一种非常简单有效的方法是对特定列调用 description 函数

df['field_A'].describe()

这会给你平均值,最大值,中位数和第75百分位数

描述会给你四分位数,如果你想要百分位数,你可以这样做

 df['YOUR_COLUMN_HERE'].describe(percentiles=[.1, .2, .3, .4, .5, .6 , .7, .8, .9, 1])