Pandas DataFrame:根据条件替换列中的所有值

小开

最佳答案

您需要选择该列:

In [41]:
df.loc[df['First Season'] > 1990, 'First Season'] = 1
df


Out[41]:
Team  First Season  Total Games
0      Dallas Cowboys          1960          894
1       Chicago Bears          1920         1357
2   Green Bay Packers          1921         1339
3      Miami Dolphins          1966          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers          1950         1003

这里的语法是:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

你可以检查文档和显示语义的10分钟到熊猫

编辑

如果你想生成一个布尔指示器，那么你可以使用布尔条件来生成一个布尔Series，并将dtype转换为int，这将分别将True和False转换为1和0:

In [43]:
df['First Season'] = (df['First Season'] > 1990).astype(int)
df


Out[43]:
Team  First Season  Total Games
0      Dallas Cowboys             0          894
1       Chicago Bears             0         1357
2   Green Bay Packers             0         1339
3      Miami Dolphins             0          792
4    Baltimore Ravens             1          326
5  San Franciso 49ers             0         1003

小开

有点晚了，但仍然-我更喜欢在以下地方使用numpy:

import numpy as np
df['First Season'] = np.where(df['First Season'] > 1990, 1, df['First Season'])

小开

df['First Season'].loc[(df['First Season'] > 1990)] = 1

奇怪的是没有人知道这个答案，你的代码中唯一缺少的部分是df之后的['First Season']，只需删除里面的花括号。

小开

df.loc[df['First season'] > 1990, 'First Season'] = 1

解释:

df.loc有两个参数，'行索引'和'列索引'。我们正在检查在"First season"下的每一行值是否大于1990;然后用1替换它。

小开

对于单一条件，即。( 'employrate'] > 70 )

       country        employrate alcconsumption
0  Afghanistan  55.7000007629394            .03
1      Albania  51.4000015258789           7.29
2      Algeria              50.5            .69
3      Andorra                            10.17
4       Angola  75.6999969482422           5.57

用这个:

df.loc[df['employrate'] > 70, 'employrate'] = 7

       country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   51.400002           7.29
2      Algeria   50.500000            .69
3      Andorra         nan          10.17
4       Angola    7.000000           5.57

因此这里的语法是:

df.loc[<mask>(here mask is generating the labels to index) , <optional column(s)> ]

对于多种情况，即。(df['employrate'] <=55) & (df['employrate'] > 50)

用这个:

df['employrate'] = np.where(
(df['employrate'] <=55) & (df['employrate'] > 50) , 11, df['employrate']
)

out[108]:
country  employrate alcconsumption
0  Afghanistan   55.700001            .03
1      Albania   11.000000           7.29
2      Algeria   11.000000            .69
3      Andorra         nan          10.17
4       Angola   75.699997           5.57

因此这里的语法是:

 df['<column_name>'] = np.where((<filter 1> ) & (<filter 2>) , <new value>, df['column_name'])

小开

我们可以用以下语法更新df中的First Season列:

df['First Season'] = expression_for_new_values

要映射First Season中的值，我们可以使用pandas的.map()方法，语法如下:

data_frame(['column']).map({'initial_value_1':'updated_value_1','initial_value_2':'updated_value_2'})

小开

另一种选择是使用列表推导式:

df['First Season'] = [1 if year > 1990 else year for year in df['First Season']]

小开

你也可以使用mask替换满足条件的值:

df['First Season'].mask(lambda col: col > 1990, 1)