如何将数据帧列转换为数字类型?

如何将数据帧列转换为数字类型?

1325972 次浏览

如果x是数据帧dat的列名,并且x的类型是factor,使用:

as.numeric(as.character(dat$x))

蒂姆是对的,谢恩有个遗漏。以下是其他例子:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a),
numchr = as.numeric(as.character(df$a)))
R> df
a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
a          num           numchr
10:1   Min.   :1.00   Min.   :10.0
11:1   1st Qu.:2.25   1st Qu.:11.2
12:1   Median :3.50   Median :12.5
13:1   Mean   :3.50   Mean   :12.5
14:1   3rd Qu.:4.75   3rd Qu.:13.8
15:1   Max.   :6.00   Max.   :15.0
R>

我们的data.frame现在有一个因子列的摘要(计数)和as.numeric()的数字摘要——它是错误的,因为它得到了数值因子级别——以及as.numeric(as.character())的(正确的)摘要。

这对我有帮助:如果你有变量转换范围(或不止一个),你可以使用sapply

有点荒谬,举个例子:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

假设第3列、第6-15列和第37列的数据帧需要转换为数字:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

由于(仍然)没有人得到对号,我假设你心中有一些实际问题,主要是因为你没有指定要转换为numeric的哪种类型的向量。我建议你应该应用transform函数来完成你的任务。

现在我要演示某些“转换异常”:

# create dummy data.frame
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)

让我们看一下data.frame

> d
char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

让我们奔跑:

> sapply(d, mode)
char   fake_char         fac    char_fac         num
"character" "character"   "numeric"   "numeric"   "numeric"
> sapply(d, class)
char   fake_char         fac    char_fac         num
"character" "character"    "factor"    "factor"   "integer"

现在你可能会问自己,好吧,我在R中遇到过非常奇怪的东西,这不是最令人困惑的东西,但它会让你困惑,尤其是如果你在睡觉前读了这篇文章。

这里是:前两列是character。我故意将2nd命名为fake_char。注意这个character变量与Dirk在他的回复中创建的一个变量的相似性。它实际上是一个转换为characternumerical向量。3理查德·道金斯和4th列是factor,最后一个是“纯粹的”numeric

如果使用transform函数,则可以将fake_char转换为numeric,但不能将char变量本身转换为char

> transform(d, char = as.numeric(char))
char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

但如果你在fake_charchar_fac上做同样的事情,你会很幸运,并且没有NA:

> transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))


char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

如果你保存转换后的data.frame并检查modeclass,你会得到:

> D <- transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))


> sapply(D, mode)
char   fake_char         fac    char_fac         num
"character"   "numeric"   "numeric"   "numeric"   "numeric"
> sapply(D, class)
char   fake_char         fac    char_fac         num
"character"   "numeric"    "factor"   "numeric"   "integer"

因此,结论是:是的,你可以将__ABC0向量转换为numeric向量,但前提是它的元素可以“转换”为numeric如果vector中只有一个character元素,那么在试图将该vector转换为numerical one时将会得到错误。

为了证明我的观点:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion
> char
[1]  1 NA  3  4 NA

现在,只是为了好玩(或练习),试着猜测这些命令的输出:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

向帕特里克·伯恩斯致以亲切的问候!=)

使用下面的代码,您可以将所有数据帧的列转换为数字(X是我们想要转换它的列的数据帧):

as.data.frame(lapply(X, as.numeric))

和转换整个矩阵到数字你有两种方法: : < / p >

mode(X) <- "numeric"

或者:

X <- apply(X, 2, as.numeric)

另外,你也可以使用data.matrix函数将所有内容转换为数字,不过要注意,因子可能无法正确转换,因此先将所有内容转换为character更安全:

X <- sapply(X, as.character)
X <- data.matrix(X)

如果我需要同时转换为矩阵和数字,我通常使用最后一个

虽然其他人已经很好地讨论了这个话题,但我想补充一个额外的快速思考/提示。可以使用regexp提前检查字符是否可能仅由数字组成。

for(i in seq_along(names(df)){
potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

要了解更复杂的正则表达式,以及为什么要学习/体验它们的力量,请访问这个非常好的网站:http://regexr.com/

我会加一条评论(不能低评级)

只需要添加user276042和pangratz

dat$x = as.numeric(as.character(dat$x))

这将覆盖现有列x的值

要将数据帧列转换为数字,你只需要做:-

因数转换为数字:-

data_frame$column <- as.numeric(as.character(data_frame$column))

如果你遇到以下问题:

as.numeric(as.character(dat$x))

看看你的小数点。如果它们是“,”而不是“。”(如。"5,3")以上都不行。

一个潜在的解决方案是:

as.numeric(gsub(",", ".", dat$x))

我相信这在一些非英语国家是很常见的。

使用type.convert()rapply()的通用方式:

convert_types <- function(x) {
stopifnot(is.list(x))
x[] <- rapply(x, utils::type.convert, classes = "character",
how = "replace", as.is = TRUE)
return(x)
}
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num
#> "character"   "integer"    "factor"    "factor"   "integer"

在我的PC (R v.3.2.3)中,applysapply给出错误。lapply工作良好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

虽然你的问题严格是关于数字的,但在开始r时,有许多转换是难以理解的。我将致力于解决帮助的方法。这个问题类似于这个问题

在R中,类型转换可能是一种痛苦,因为(1)因子不能直接转换为数字,它们需要首先转换为字符类,(2)日期是一种特殊情况,通常需要单独处理,(3)跨数据帧列的循环可能很棘手。幸运的是,“潮流宇宙”已经解决了大部分问题。

此解决方案使用mutate_each()将函数应用到数据帧中的所有列。在这种情况下,我们想要应用type.convert()函数,它可以将字符串转换为数字。因为R喜欢因子(不知道为什么)应该保持字符的字符列被更改为因子。为了解决这个问题,mutate_if()函数用于检测作为因子的列并更改为字符。最后,我想展示如何使用润滑剂将字符类中的时间戳更改为日期-时间,因为这对于初学者来说也是一个棘手的问题。


< / p >

library(tidyverse)
library(lubridate)


# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90


# Converting columns to numeric using "tidyverse"
data_df %>%
mutate_all(type.convert) %>%
mutate_if(is.factor, as.character) %>%
mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

考虑到可能存在char列,这是基于自动获取excel表的列类型 answer中的@Abdou:

makenumcols<-function(df){
df<-as.data.frame(df)
df[] <- lapply(df, as.character)
cond <- apply(df, 2, function(x) {
x <- x[!is.na(x)]
all(suppressWarnings(!is.na(as.numeric(x))))
})
numeric_cols <- names(df)[cond]
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
return(df)
}
df<-makenumcols(df)

要将字符转换为数字,您必须通过应用将其转换为因数

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

您必须用相同的数据创建两列,因为一列不能转换为数字。如果你做一次转换,它会给出如下错误

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
In eval(substitute(list(...)), `_data`, parent.frame()) :
NAs introduced by coercion

所以,在做了两列相同的数据应用后

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp),
LoanApproval = as.numeric(LoanApproval))

它将成功地将字符转换为数字

如果数据帧有多种类型的列,一些字符,一些数字尝试以下转换列包含数值为数值:

for (i in 1:length(data[1,])){
if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
else {
data[,i]<-as.numeric(data[,i])
}
}

hablar:转换

要轻松地将多个列转换为不同的数据类型,可以使用hablar::convert。简单的语法:df %>% convert(num(a))将列a从df转换为数值。

详细的例子

让我们将mtcars的所有列转换为字符。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()


> df
# A tibble: 32 x 11
mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 21    6     160   110   3.9   2.62  16.46 0     1     4     4
2 21    6     160   110   3.9   2.875 17.02 0     1     4     4
3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1

hablar::convert:

library(hablar)


# Convert columns to integer, numeric and factor
df %>%
convert(int(cyl, vs),
num(disp:wt),
fct(gear))

结果:

# A tibble: 32 x 11
mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb
<chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
1 21        6  160    110  3.9   2.62 16.46     0 1     4     4
2 21        6  160    110  3.9   2.88 17.02     0 1     4     4
3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1
4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1

df是你的数据帧。x是你要转换的df的列

as.numeric(factor(df$x))
如果你不关心保留因子,并希望将其应用到任何可以转换为数字的列,我使用下面的脚本。 如果df是您的原始数据框架,您可以使用下面的脚本。< / p >
df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

顺便说一句,我引用了巴蒂尔的Joran的解决方案