如何删除一个numpy数组中的特定元素

如何从numpy数组中删除一些特定的元素?说我有

import numpy as np


a = np.array([1,2,3,4,5,6,7,8,9])

然后我想从a中删除3,4,7。我所知道的是值的索引(index=[2,3,6])。

788040 次浏览

使用numpy.delete () -返回一个数组,其子数组沿已删除的轴

numpy.delete(a, index)

关于你的具体问题:

import numpy as np


a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
index = [2, 3, 6]


new_a = np.delete(a, index)


print(new_a) #Prints `[1, 2, 5, 6, 8, 9]`

注意,numpy.delete()返回一个新数组,因为数组标量是不可变的,类似于Python中的字符串,所以每次对它进行更改时,都会创建一个新对象。例如,引用delete() 文档:

" arr的复制,除去obj指定的元素。< em >注意 删除不发生在原地…" < / p >

如果我发布的代码有输出,它是运行代码的结果。

Numpy数组是不可变的,这意味着从技术上讲你不能从其中删除一个项。然而,你可以构造一个不包含你不想要的值的数组,就像这样:

b = np.delete(a, [2,3,6])

我不是一个麻木的人,我试了一下:

>>> import numpy as np
>>> import itertools
>>>
>>> a = np.array([1,2,3,4,5,6,7,8,9])
>>> index=[2,3,6]
>>> a = np.array(list(itertools.compress(a, [i not in index for i in range(len(a))])))
>>> a
array([1, 2, 5, 6, 8, 9])

根据我的测试,这优于numpy.delete()。我不知道为什么会这样,也许是因为初始数组的大小较小?

python -m timeit -s "import numpy as np" -s "import itertools" -s "a = np.array([1,2,3,4,5,6,7,8,9])" -s "index=[2,3,6]" "a = np.array(list(itertools.compress(a, [i not in index for i in range(len(a))])))"
100000 loops, best of 3: 12.9 usec per loop


python -m timeit -s "import numpy as np" -s "a = np.array([1,2,3,4,5,6,7,8,9])" -s "index=[2,3,6]" "np.delete(a, index)"
10000 loops, best of 3: 108 usec per loop

这是一个相当显著的差异(与我预期的方向相反),有人知道为什么会这样吗?

更奇怪的是,给numpy.delete()传递一个列表比遍历列表并给它单个索引的性能更差。

python -m timeit -s "import numpy as np" -s "a = np.array([1,2,3,4,5,6,7,8,9])" -s "index=[2,3,6]" "for i in index:" "    np.delete(a, i)"
10000 loops, best of 3: 33.8 usec per loop

编辑:这似乎与数组的大小有关。对于大型数组,numpy.delete()明显更快。

python -m timeit -s "import numpy as np" -s "import itertools" -s "a = np.array(list(range(10000)))" -s "index=[i for i in range(10000) if i % 2 == 0]" "a = np.array(list(itertools.compress(a, [i not in index for i in range(len(a))])))"
10 loops, best of 3: 200 msec per loop


python -m timeit -s "import numpy as np" -s "a = np.array(list(range(10000)))" -s "index=[i for i in range(10000) if i % 2 == 0]" "np.delete(a, index)"
1000 loops, best of 3: 1.68 msec per loop

显然,这一切都是相当无关紧要的,因为您应该始终保持清晰,避免重复工作,但我发现它有点有趣,所以我想我就把它留在这里。

有一个numpy内置函数可以帮助实现这一点。

import numpy as np
>>> a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> b = np.array([3,4,7])
>>> c = np.setdiff1d(a,b)
>>> c
array([1, 2, 5, 6, 8, 9])

如果你不知道索引,你不能使用logical_and

x = 10*np.random.randn(1,100)
low = 5
high = 27
x[0,np.logical_and(x[0,:]>low,x[0,:]<high)]

按值删除:

modified_array = np.delete(original_array, np.where(original_array == value_to_delete))

删除特定索引(我从矩阵中删除了16和21)

import numpy as np
mat = np.arange(12,26)
a = [4,9]
del_map = np.delete(mat, a)
del_map.reshape(3,4)

输出:

array([[12, 13, 14, 15],
[17, 18, 19, 20],
[22, 23, 24, 25]])

你也可以使用集合:

a = numpy.array([10, 20, 30, 40, 50, 60, 70, 80, 90])
the_index_list = [2, 3, 6]


the_big_set = set(numpy.arange(len(a)))
the_small_set = set(the_index_list)
the_delta_row_list = list(the_big_set - the_small_set)


a = a[the_delta_row_list]

如果我们知道要删除的元素的下标,使用np.delete是最快的方法。然而,为了完整起见,让我添加另一种“删除”数组元素的方法,使用在np.isin的帮助下创建的布尔掩码。该方法允许我们通过直接指定或通过索引来删除元素:

import numpy as np
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

按索引删除:

indices_to_remove = [2, 3, 6]
a = a[~np.isin(np.arange(a.size), indices_to_remove)]

按元素移除(不要忘记重新创建原始的a,因为它在前一行中被重写了):

elements_to_remove = a[indices_to_remove]  # [3, 4, 7]
a = a[~np.isin(a, elements_to_remove)]

列表理解也是一种有趣的方法。

a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
index = np.array([2, 3, 6]) #index is changed to an array.
out = [val for i, val in enumerate(a) if all(i != index)]
>>> [1, 2, 5, 6, 8, 9]

如果你没有想要删除的元素的索引,你可以使用numpy提供的函数in1d

如果一个一维数组的元素也存在于另一个数组中,则该函数返回True。要删除元素,只需对该函数返回的值求负即可。

注意这个方法保持秩序来自原始数组。

In [1]: import numpy as np


a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
rm = np.array([3, 4, 7])
# np.in1d return true if the element of `a` is in `rm`
idx = np.in1d(a, rm)
idx


Out[1]: array([False, False,  True,  True, False, False,  True, False, False])


In [2]: # Since we want the opposite of what `in1d` gives us,
# you just have to negate the returned value
a[~idx]


Out[2]: array([1, 2, 5, 6, 8, 9])

过滤不需要的部分:

import numpy as np
a = np.array([1,2,3,4,5,6,7,8,9])
a = a[(a!=3)&(a!=4)&(a!=7)]

如果你有一个要删除的索引列表:

to_be_removed_inds = [2,3,6]
a = np.array([1,2,3,4,5,6,7,8,9])
a = a[[x for x in range(len(a)) if x not in to_be_removed]]