我如何在熊猫的特定列索引插入一列?

我可以在pandas的特定列索引处插入一列吗?

import pandas as pd
df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]})
df['n'] = 0

这将把列n作为df的最后一列,但是有没有一种方法告诉dfn放在开头?

481325 次浏览

你可以试着提取列作为列表,按摩这作为你想要的,并重新索引你的数据框架:

>>> cols = df.columns.tolist()
>>> cols = [cols[-1]]+cols[:-1] # or whatever change you need
>>> df.reindex(columns=cols)


n  l  v
0  0  a  1
1  0  b  2
2  0  c  1
3  0  d  2

编辑:这可以在一行中完成;然而,这看起来有点难看。也许会出现一些更干净的建议……

>>> df.reindex(columns=['n']+df.columns[:-1].tolist())


n  l  v
0  0  a  1
1  0  b  2
2  0  c  1
3  0  d  2

参见docs: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.insert.html

使用loc = 0将在开头插入

df.insert(loc, column, value)

df = pd.DataFrame({'B': [1, 2, 3], 'C': [4, 5, 6]})


df
Out:
B  C
0  1  4
1  2  5
2  3  6


idx = 0
new_col = [7, 8, 9]  # can be a list, a Series, an array or a scalar
df.insert(loc=idx, column='A', value=new_col)


df
Out:
A  B  C
0  7  1  4
1  8  2  5
2  9  3  6

如果你想为所有行设置一个值:

df.insert(0,'name_of_column','')
df['name_of_column'] = value

编辑:

你还可以:

df.insert(0,'name_of_column',value)

这里有一个非常简单的答案(只有一行)。

你可以这样做,在你添加'n'列到你的df如下。

import pandas as pd
df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]})
df['n'] = 0


df
l   v   n
0   a   1   0
1   b   2   0
2   c   1   0
3   d   2   0


# here you can add the below code and it should work.
df = df[list('nlv')]
df


n   l   v
0   0   a   1
1   0   b   2
2   0   c   1
3   0   d   2






However, if you have words in your columns names instead of letters. It should include two brackets around your column names.


import pandas as pd
df = pd.DataFrame({'Upper':['a','b','c','d'], 'Lower':[1,2,1,2]})
df['Net'] = 0
df['Mid'] = 2
df['Zsore'] = 2


df


Upper   Lower   Net Mid Zsore
0   a       1       0   2   2
1   b       2       0   2   2
2   c       1       0   2   2
3   d       2       0   2   2


# here you can add below line and it should work
df = df[list(('Mid','Upper', 'Lower', 'Net','Zsore'))]
df


Mid  Upper   Lower   Net Zsore
0   2   a       1       0   2
1   2   b       2       0   2
2   2   c       1       0   2
3   2   d       2       0   2
df.insert(loc, column_name, value)

如果没有其他具有相同名称的列,这将有效。如果包含您提供的名称的列已经存在于数据框架中,它将引发ValueError。

你可以传递一个带有True值的可选参数allow_duplicates,用已经存在的列名创建一个新列。

这里有一个例子:




>>> df = pd.DataFrame({'b': [1, 2], 'c': [3,4]})
>>> df
b  c
0  1  3
1  2  4
>>> df.insert(0, 'a', -1)
>>> df
a  b  c
0 -1  1  3
1 -1  2  4
>>> df.insert(0, 'a', -2)
Traceback (most recent call last):
File "", line 1, in
File "C:\Python39\lib\site-packages\pandas\core\frame.py", line 3760, in insert
self._mgr.insert(loc, column, value, allow_duplicates=allow_duplicates)
File "C:\Python39\lib\site-packages\pandas\core\internals\managers.py", line 1191, in insert
raise ValueError(f"cannot insert {item}, already exists")
ValueError: cannot insert a, already exists
>>> df.insert(0, 'a', -2,  allow_duplicates = True)
>>> df
a  a  b  c
0 -2 -1  1  3
1 -2 -1  2  4

一般的四句话

当你想要创建一个新列并插入到特定位置loc时,你可以使用以下4行例程。

df['new_column'] = ... #new column's definition
col = df.columns.tolist()
col.insert(loc, col.pop()) #loc is the column's index you want to insert into
df = df[col]

在你的例子中,它很简单:

df['n'] = 0
col = df.columns.tolist()
col.insert(0, col.pop())
df = df[col]