在熊猫数据框中查找具有 NaN 的行的整数索引

我有一个这样的熊猫数据框架:

                    a         b
2011-01-01 00:00:00 1.883381  -0.416629
2011-01-01 01:00:00 0.149948  -1.782170
2011-01-01 02:00:00 -0.407604 0.314168
2011-01-01 03:00:00 1.452354  NaN
2011-01-01 04:00:00 -1.224869 -0.947457
2011-01-01 05:00:00 0.498326  0.070416
2011-01-01 06:00:00 0.401665  NaN
2011-01-01 07:00:00 -0.019766 0.533641
2011-01-01 08:00:00 -1.101303 -1.408561
2011-01-01 09:00:00 1.671795  -0.764629

是否有一种有效的方法来找到具有 NaN 的行的“整数”索引?在这种情况下,所需的输出应该是 [3, 6]

183150 次浏览

数据帧 df:

import numpy as np
index = df['b'].index[df['b'].apply(np.isnan)]

将返回 MultiIndex,您可以使用这个 MultiIndex索引返回到 df,例如:

df['a'].ix[index[0]]
>>> 1.452354

For the integer index:

df_index = df.index.values.tolist()
[df_index.index(i) for i in index]
>>> [3, 6]

这里有一个更简单的解决方案:

inds = pd.isnull(df).any(1).nonzero()[0]

In [9]: df
Out[9]:
0         1
0  0.450319  0.062595
1 -0.673058  0.156073
2 -0.871179 -0.118575
3  0.594188       NaN
4 -1.017903 -0.484744
5  0.860375  0.239265
6 -0.640070       NaN
7 -0.535802  1.632932
8  0.876523 -0.153634
9 -0.686914  0.131185


In [10]: pd.isnull(df).any(1).nonzero()[0]
Out[10]: array([3, 6])

为了以防万一,如果你想为所有的列找到“ nan”的坐标(假设它们都是数字) ,你可以这样做:

df = pd.DataFrame([[0,1,3,4,np.nan,2],[3,5,6,np.nan,3,3]])


df
0  1  2    3    4  5
0  0  1  3  4.0  NaN  2
1  3  5  6  NaN  3.0  3


np.where(np.asanyarray(np.isnan(df)))
(array([0, 1]), array([4, 3]))

下面是另一种更简单的看法:

df = pd.DataFrame([[0,1,3,4,np.nan,2],[3,5,6,np.nan,3,3]])


inds = np.asarray(df.isnull()).nonzero()


(array([0, 1], dtype=int64), array([4, 3], dtype=int64))

不知道这是否太晚了,但是您可以使用 np.where 来查找非值的索引:

indices = list(np.where(df['b'].isna()[0]))

我正在查找具有 NaN 值的行的所有索引。
我的工作解决方案:

def get_nan_indexes(data_frame):
indexes = []
print(data_frame)
for column in data_frame:
index = data_frame[column].index[data_frame[column].apply(np.isnan)]
if len(index):
indexes.append(index[0])
df_index = data_frame.index.values.tolist()
return [df_index.index(i) for i in set(indexes)]

一行解决方案。但它只适用于一列。

df.loc[pandas.isna(df["b"]), :].index

如果有 datetime 索引并且希望具有下列值:

df.loc[pd.isnull(df).any(1), :].index.values

将数据帧命名为 < em > df ,感兴趣的列(即 我们试图在其中找到空值的列)为 < em > ‘ b’ 。然后,下面的代码片段给出了数据框架中所需的 null 索引:

   for i in range(df.shape[0]):
if df['b'].isnull().iloc[i]:
print(i)

下面是一些方法的测试:

%timeit np.where(np.isnan(df['b']))[0]
%timeit pd.isnull(df['b']).nonzero()[0]
%timeit np.where(df['b'].isna())[0]
%timeit df.loc[pd.isna(df['b']), :].index

以及相应的时间:

333 µs ± 9.95 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
280 µs ± 220 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
313 µs ± 128 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
6.84 ms ± 1.59 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

看起来 pd.isnull(df['DRGWeight']).nonzero()[0]在时机上占了上风,但是前三种方法中的任何一种都具有可比性能。

另一个简单的解决方案是 list(np.where(df['b'].isnull())[0])

这将为您提供每个列中 nan 的索引值:

df.loc[pd.isna(df).any(1), :].index
    index_nan = []
for index, bool_v in df["b"].iteritems().isna():
if bool_v == True:
index_nan.append(index)
print(index_nan)