从数据帧中提取特定的列

我有一个R数据帧有6列,我想创建一个新的数据帧,只有三个列。

假设我的数据帧是df,我想提取列ABE,这是我唯一能想出的命令:

 data.frame(df$A,df$B,df$E)

有没有更紧凑的方式来做这件事?

1541212 次浏览

您可以使用列名的向量进行子集。我强烈喜欢这种方法,而不是那些将列名视为对象名的方法(例如subset()),特别是在函数、包或应用程序中编程时。

# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[c("A","B","E")]

注意这里没有逗号(即它不是df[,c("A","B","C")])。这是因为df[,"A"]返回的是一个向量,而不是一个数据帧。但是df["A"]总是返回一个数据帧。

str(df["A"])
## 'data.frame':    1 obs. of  1 variable:
## $ A: int 1
str(df[,"A"])  # vector
##  int 1

感谢大卫Dorchies指出df[,"A"]返回一个向量而不是data.frame,并感谢安东尼·法夫里为我的原始解决方案(下面)提供了一个更好的替代方案(上面)。

# subset (original solution--not recommended)
df[,c("A","B","E")]  # returns a data.frame
df[,"A"]             # returns a vector

有两个明显的选择:Joshua Ulrich的df[,c("A","B","E")]

df[,c(1,2,5)]

就像在

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8

这是subset()函数的作用:

> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4

使用dplyr包,如果你的data.frame被称为df1:

library(dplyr)


df1 %>%
select(A, B, E)

这也可以在没有%>%管道的情况下写成:

select(df1, A, B, E)

其中df1是原始数据帧:

df2 <- subset(df1, select = c(1, 2, 5))

[和子集是不可替换的:

如果只选择了一列,[将返回一个向量。

df = data.frame(a="a",b="b")


identical(
df[,c("a")],
subset(df,select="a")
)


identical(
df[,c("a","b")],
subset(df,select=c("a","b"))
)

你也可以使用sqldf包,它在R数据帧上执行选择:

df1 <- sqldf("select A, B, E from df")

这将提供一个包含列:a, B,E的数据帧df1作为输出。

出于某种原因

df[, (names(df) %in% c("A","B","E"))]

为我工作。以上所有语法都产生了“未定义的选定列”。

你可以使用with:

with(df, data.frame(A, B, E))
df<- dplyr::select ( df,A,B,C)

此外,还可以为新创建的数据分配不同的名称

data<- dplyr::select ( df,A,B,C)