选择/排除pandas中的列集合

我想根据列的选择从现有的数据帧创建视图或数据帧。

例如,我想从数据框架df1中创建一个数据框架df2,该数据框架中包含除其中两列外的所有列。我试着这样做,但没有成功:

import numpy as np
import pandas as pd


# Create a dataframe with columns A,B,C and D
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))


# Try to create a second dataframe df2 from df with all columns except 'B' and D
my_cols = set(df.columns)
my_cols.remove('B').remove('D')


# This returns an error ("unhashable type: set")
df2 = df[my_cols]

我做错了什么?也许更一般地说,熊猫必须有什么机制来支持从数据框架中任意列集的选择和除外责任 ?

874885 次浏览

你只需要将你的set转换为list

import pandas as pd
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))
my_cols = set(df.columns)
my_cols.remove('B')
my_cols.remove('D')
my_cols = list(my_cols)
df2 = df[my_cols]

你不需要把它转换成一个集合:

cols = [col for col in df.columns if col not in ['B', 'D']]
df2 = df[cols]

下面是如何创建不包含列列表的DataFrame复制:

df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))
df2 = df.drop(['B', 'D'], axis=1)

但是要小心!你在你的问题中提到了视图,这表明如果你改变了df,你会希望df2也改变。(就像数据库中的视图一样。)

这个方法不能实现:

>>> df.loc[0, 'A'] = 999 # Change the first value in df
>>> df.head(1)
A         B         C         D
0  999 -0.742688 -1.980673 -0.920133
>>> df2.head(1) # df2 is unchanged. It's not a view, it's a copy!
A         C
0  0.251262 -1.980673

还要注意,@piggybox的方法也是如此。(尽管这个方法很漂亮,很圆滑,而且很Pythonic。我不会这么做的!!)

有关视图与副本的更多信息,请参阅答案所指向的这个SO答案这部分的熊猫文件

还可以看看内置的DataFrame.filter函数。

极简但贪婪的方法(对给定的df足够):

df.filter(regex="[^BD]")

保守/惰性方法(仅限精确匹配):

df.filter(regex="^(?!(B|D)$).*$")

保守的,一般的:

exclude_cols = ['B','C']
df.filter(regex="^(?!({0})$).*$".format('|'.join(exclude_cols)))

您可以删除不需要的列或选择需要的列

# Using DataFrame.drop
df.drop(df.columns[[1, 2]], axis=1, inplace=True)


# drop by Name
df1 = df1.drop(['B', 'C'], axis=1)


# Select the ones you want
df1 = df[['a','d']]

有一个新的索引方法叫做difference。它返回原始列,作为参数传递的列被删除。

这里,结果用于从df中删除列BD:

df2 = df[df.columns.difference(['B', 'D'])]

注意,这是一个基于集合的方法,因此重复的列名会导致问题,而且列的顺序可能会改变。


优势 over drop:当你只需要列列表时,你不会创建整个数据帧的副本。例如,为了在列的子集上删除重复项:

# may create a copy of the dataframe
subset = df.drop(['B', 'D'], axis=1).columns


# does not create a copy the dataframe
subset = df.columns.difference(['B', 'D'])


df = df.drop_duplicates(subset=subset)

类似地,在读取文件时,可能希望提前排除列,而不是浪费地将不需要的数据读入内存,然后丢弃它们。

作为熊猫0.20.0,usecols现在接受可调用对象1此更新允许更灵活的选项读取列:

skipcols = [...]
read_csv(..., usecols=lambda x: x not in skipcols)

后一种模式本质上与传统的usecols方法相反——只跳过指定的列。


鉴于

文件中的数据

import numpy as np
import pandas as pd




df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))


filename = "foo.csv"
df.to_csv(filename)

代码

skipcols = ["B", "D"]
df1 = pd.read_csv(filename, usecols=lambda x: x not in skipcols, index_col=0)
df1

输出

          A         C
0  0.062350  0.076924
1 -0.016872  1.091446
2  0.213050  1.646109
3 -1.196928  1.153497
4 -0.628839 -0.856529
...

细节

数据帧被写入文件。然后它被作为一个单独的DataFrame读回来,现在跳过不需要的列(BD)。

注意,对于OP的情况,因为已经创建了数据,所以更好的方法是接受答案,即从现有对象中删除不需要的列。但是,这里介绍的技术在直接将数据从文件读入DataFrame时最有用。

在< A href="https://github.com/pandas-dev/pandas/issues/10882" rel="noreferrer">这个问题中提出了一个“skipcols”选项的请求,并在稍后的< A href="https://github.com/pandas-dev/pandas/issues/15799" rel="noreferrer">问题.中得到解决

你有四列A B C D

这里有一个更好的方法来选择你需要为新的数据框架的列:-

df2 = df1[['A','D']]

如果您希望使用列号,请使用:-

df2 = df1[[0,3]]

另一个选项,不需要在循环中删除或过滤:

import numpy as np
import pandas as pd


# Create a dataframe with columns A,B,C and D
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))


# include the columns you want
df[df.columns[df.columns.isin(['A', 'B'])]]


# or more simply include columns:
df[['A', 'B']]


# exclude columns you don't want
df[df.columns[~df.columns.isin(['C','D'])]]


# or even simpler since 0.24
# with the caveat that it reorders columns alphabetically
df[df.columns.difference(['C', 'D'])]