在 Python 中，内存视图的意义究竟是什么？

小开

当您需要只需要支持索引的二进制数据子集时，memoryview对象非常有用。您可以直接获取一个 memoryview对象，而不必获取切片(并创建新的、可能很大的)对象来传递给 另一个 API。

一个这样的 API 示例是 struct模块。不需要传入大型 bytes对象的片段来解析打包的 C 值，而只需要传入需要从中提取值的区域的 memoryview。

memoryview objects, in fact, support struct unpacking natively; you can target a region of the underlying bytes object with a slice, then use .cast() to 'interpret' the underlying bytes as long integers, or floating point values, or n-dimensional lists of integers. This makes for very efficient binary file format interpretations, without having to create more copies of the bytes.

小开

memoryview有用的一个原因是，与 bytes/str不同，可以在不复制底层数据的情况下对它们进行切片。

例如，以下面的玩具为例。

import time
for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = data
while b:
b = b[1:]
print(f'     bytes {n} {time.time() - start:0.3f}')


for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print(f'memoryview {n} {time.time() - start:0.3f}')

在我的电脑上

     bytes 100000 0.211
bytes 200000 0.826
bytes 300000 1.953
bytes 400000 3.514
memoryview 100000 0.021
memoryview 200000 0.052
memoryview 300000 0.043
memoryview 400000 0.077

您可以清楚地看到重复的字符串切片的二次复杂性。即使只有400000次迭代，它也已经难以管理了。同时，memoryview版本具有线性复杂性和闪电般的速度。

编辑: 注意，这是在 CPython 中完成的。Pypy 存在一个高达4.0.1的错误，导致内存视图具有二次性能。

小开

这里是 python3代码。

#!/usr/bin/env python3


import time
for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = data
while b:
b = b[1:]
print ('bytes {:d} {:f}'.format(n,time.time()-start))


for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print ('memview {:d} {:f}'.format(n,time.time()-start))

小开

让我来说明一下这里的误解在哪里。

提问者和我一样，希望能够创建一个内存视图，从现有数组(例如字节或字节数组)中选择一个片段。因此，我们预期会出现这样的情况:

desired_slice_view = memoryview(existing_array, start_index, end_index)

遗憾的是，没有这样的构造函数，而且文档也没有指出应该做什么。

The key is that you have to first make a memoryview that covers the entire existing array. From that memoryview you can create a second memoryview that covers a slice of the existing array, like this:

whole_view = memoryview(existing_array)
desired_slice_view = whole_view[10:20]

In short, the purpose of the first line is simply to provide an object whose slice implementation (dunder-getitem) returns a memoryview.

这可能看起来有些不整洁，但是我们可以用几种方法来合理化它:

我们需要的输出是一个内存视图，它是某个东西的一部分。通常，我们通过使用切片操作符[10:20]从同一类型的对象中获得一个切片对象。因此，有理由期望我们需要从内存视图获取所需的 _ slice _ view，因此第一步是获取整个底层数组的内存视图。
带有开始和结束参数的内存视图构造函数的天真期望没有考虑到切片规范确实需要常规切片操作符的所有表达能力(包括[3: : 2]或[ :-4]等)。在那个一行程序构造函数中，不可能只使用现有的(并且可以理解的)运算符。您不能将它附加到现有的 _ array 参数，因为这将构成该数组的一个切片，而不是告诉 memyview 构造函数一些切片参数。而且你不能使用操作符本身作为参数，因为它是一个操作符，而不是一个值或对象。

可以想象，内存视图构造函数可以接受一个切片对象:

desired_slice_view = memoryview(existing_array, slice(1, 5, 2) )

... 但这并不是很令人满意，因为用户必须了解切片对象及其构造函数的参数意味着什么，当他们已经在考虑切片运算符的符号时。

小开

锑就是一个很好的例子。实际上，在 Python 3中，您可以将 data = ‘ x’* n 替换为 data = bytes (n) ，并将括号放在输出语句中，如下所示:

import time
for n in (100000, 200000, 300000, 400000):
#data = 'x'*n
data = bytes(n)
start = time.time()
b = data
while b:
b = b[1:]
print('bytes', n, time.time()-start)


for n in (100000, 200000, 300000, 400000):
#data = 'x'*n
data = bytes(n)
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print('memoryview', n, time.time()-start)

小开

下面的代码可以更好地解释它。假设您无法控制如何实现 foreign_func。您可以使用 bytes直接调用它，也可以使用这些字节的 memoryview调用它:

from pandas import DataFrame
from timeit import timeit




def foreign_func(data):
def _foreign_func(data):
# Did you know that memview slice can be compared to bytes directly?
assert data[:3] == b'xxx'
_foreign_func(data[3:-3])




# timeit
bytes_times = []
memoryview_times = []
data_lens = []
for n in range(1, 10):
data = b'x' * 10 ** n
data_lens.append(len(data))
bytes_times.append(timeit(
'foreign_func(data)', globals=globals(), number=10))
memoryview_times.append(timeit(
'foreign_func(memoryview(data))', globals=globals(), number=10))




# output
df = DataFrame({
'data_len': data_lens,
'memoryview_time': memoryview_times,
'bytes_time': bytes_times
})
df['times_faster'] = df['bytes_time'] / df['memoryview_time']
print(df)
df[['memoryview_time', 'bytes_time']].plot()

结果:

     data_len  memoryview_time  bytes_time   times_faster
0          10         0.000019    0.000012       0.672033
1         100         0.000016    0.000011       0.690320
2        1000         0.000016    0.000013       0.833314
3       10000         0.000016    0.000037       2.387100
4      100000         0.000016    0.000086       5.300594
5     1000000         0.000018    0.001134      63.357466
6    10000000         0.000009    0.028672    3221.528855
7   100000000         0.000009    0.258822   28758.547214
8  1000000000         0.000009    2.779704  292601.789177