在 Python 中,内存视图的意义究竟是什么?

在内存视图上检查 文件:

Memyview 对象允许 Python 代码访问 对象,该对象支持缓冲区协议而无需复制。

类别 回忆录(obj)

创建一个引用 obj.obj 的内存视图,该视图必须支持 支持缓冲协议的内置对象 包括字节和字节数组。

然后给我们示例代码:

>>> v = memoryview(b'abcefg')
>>> v[1]
98
>>> v[-1]
103
>>> v[1:4]
<memory at 0x7f3ddc9f4350>
>>> bytes(v[1:4])
b'bce'

报价结束,现在让我们仔细看看:

>>> b = b'long bytes stream'
>>> b.startswith(b'long')
True
>>> v = memoryview(b)
>>> vsub = v[5:]
>>> vsub.startswith(b'bytes')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'memoryview' object has no attribute 'startswith'
>>> bytes(vsub).startswith(b'bytes')
True
>>>

因此,我从上面得出的结论是:

我们创建一个内存视图对象来公开缓冲区对象的内部数据 复制,但是,为了做任何有用的对象(通过调用方法 ) ,我们必须创建一个副本!

通常当我们有一个很大的对象时,会需要 memyview (或者旧的 buffer 对象) , 而且切片也可以很大,这就需要更高的效率 如果我们制作大片的切片,或者制作小片的切片,但是次数很多。

使用上面的方案,我不认为它对任何情况都有用,除非 有人能给我解释一下我错过了什么。

编辑1:

我们有大量的数据,我们希望通过从头到尾的推进来处理它 end, for example extracting tokens from the start of a string buffer until the buffer is consumed.In C term, this is advancing a pointer through the buffer, and the pointer can be passed 如何在 python 中实现类似的操作?

人们建议采取变通方法,例如,许多字符串和正则表达式函数采取了相应的立场 参数可以用来模拟推进指针。这里有两个问题: 第一 这是一个解决方案,您必须改变您的编码风格以克服缺点,并且 第二: 并非所有函数都有位置参数,例如正则表达式函数和 startswith函数,encode()/decode()函数没有。

其他人可能建议以块的形式加载数据,或者以小的形式处理缓冲区 大于最大标记的部分。好的,我们知道这些可能性 但是我们应该以一种更自然的方式在 python 中工作 试图改变编码风格以适应语言,不是吗?

Edit2:

一个代码示例可以使事情变得更清楚。这就是我想要做的,也是我认为“记忆视图”第一眼就能让我做到的。让我们使用 pmview (适当的内存视图)来实现我想要的功能:

tokens = []
xlarge_str = get_string()
xlarge_str_view =  pmview(xlarge_str)


while True:
token =  get_token(xlarge_str_view)
if token:
xlarge_str_view = xlarge_str_view.vslice(len(token))
# vslice: view slice: default stop paramter at end of buffer
tokens.append(token)
else:
break
64427 次浏览

当您需要只需要支持索引的二进制数据子集时,memoryview对象非常有用。您可以直接获取一个 memoryview对象,而不必获取切片(并创建新的、可能很大的)对象来传递给 另一个 API

一个这样的 API 示例是 struct模块。不需要传入大型 bytes对象的片段来解析打包的 C 值,而只需要传入需要从中提取值的区域的 memoryview

memoryview objects, in fact, support struct unpacking natively; you can target a region of the underlying bytes object with a slice, then use .cast() to 'interpret' the underlying bytes as long integers, or floating point values, or n-dimensional lists of integers. This makes for very efficient binary file format interpretations, without having to create more copies of the bytes.

memoryview有用的一个原因是,与 bytes/str不同,可以在不复制底层数据的情况下对它们进行切片。

例如,以下面的玩具为例。

import time
for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = data
while b:
b = b[1:]
print(f'     bytes {n} {time.time() - start:0.3f}')


for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print(f'memoryview {n} {time.time() - start:0.3f}')

在我的电脑上

     bytes 100000 0.211
bytes 200000 0.826
bytes 300000 1.953
bytes 400000 3.514
memoryview 100000 0.021
memoryview 200000 0.052
memoryview 300000 0.043
memoryview 400000 0.077

您可以清楚地看到重复的字符串切片的二次复杂性。即使只有400000次迭代,它也已经难以管理了。同时,memoryview版本具有线性复杂性和闪电般的速度。

编辑: 注意,这是在 CPython 中完成的。Pypy 存在一个高达4.0.1的错误,导致内存视图具有二次性能。

这里是 python3代码。

#!/usr/bin/env python3


import time
for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = data
while b:
b = b[1:]
print ('bytes {:d} {:f}'.format(n,time.time()-start))


for n in (100000, 200000, 300000, 400000):
data = b'x'*n
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print ('memview {:d} {:f}'.format(n,time.time()-start))

让我来说明一下这里的误解在哪里。

提问者和我一样,希望能够创建一个内存视图,从现有数组(例如字节或字节数组)中选择一个片段。因此,我们预期会出现这样的情况:

desired_slice_view = memoryview(existing_array, start_index, end_index)

遗憾的是,没有这样的构造函数,而且文档也没有指出应该做什么。

The key is that you have to first make a memoryview that covers the entire existing array. From that memoryview you can create a second memoryview that covers a slice of the existing array, like this:

whole_view = memoryview(existing_array)
desired_slice_view = whole_view[10:20]

In short, the purpose of the first line is simply to provide an object whose slice implementation (dunder-getitem) returns a memoryview.

这可能看起来有些不整洁,但是我们可以用几种方法来合理化它:

  1. 我们需要的输出是一个内存视图,它是某个东西的一部分。通常,我们通过使用切片操作符[10:20]从同一类型的对象中获得一个切片对象。因此,有理由期望我们需要从内存视图获取所需的 _ slice _ view,因此第一步是获取整个底层数组的内存视图。

  2. 带有开始和结束参数的内存视图构造函数的天真期望没有考虑到切片规范确实需要常规切片操作符的所有表达能力(包括[3: : 2]或[ :-4]等)。在那个一行程序构造函数中,不可能只使用现有的(并且可以理解的)运算符。您不能将它附加到现有的 _ array 参数,因为这将构成该数组的一个切片,而不是告诉 memyview 构造函数一些切片参数。而且你不能使用操作符本身作为参数,因为它是一个操作符,而不是一个值或对象。

可以想象,内存视图构造函数可以接受一个切片对象:

desired_slice_view = memoryview(existing_array, slice(1, 5, 2) )

... 但这并不是很令人满意,因为用户必须了解切片对象及其构造函数的参数意味着什么,当他们已经在考虑切片运算符的符号时。

锑就是一个很好的例子。 实际上,在 Python 3中,您可以将 data = ‘ x’* n 替换为 data = bytes (n) ,并将括号放在输出语句中,如下所示:

import time
for n in (100000, 200000, 300000, 400000):
#data = 'x'*n
data = bytes(n)
start = time.time()
b = data
while b:
b = b[1:]
print('bytes', n, time.time()-start)


for n in (100000, 200000, 300000, 400000):
#data = 'x'*n
data = bytes(n)
start = time.time()
b = memoryview(data)
while b:
b = b[1:]
print('memoryview', n, time.time()-start)

下面的代码可以更好地解释它。假设您无法控制如何实现 foreign_func。您可以使用 bytes直接调用它,也可以使用这些字节的 memoryview调用它:

from pandas import DataFrame
from timeit import timeit




def foreign_func(data):
def _foreign_func(data):
# Did you know that memview slice can be compared to bytes directly?
assert data[:3] == b'xxx'
_foreign_func(data[3:-3])




# timeit
bytes_times = []
memoryview_times = []
data_lens = []
for n in range(1, 10):
data = b'x' * 10 ** n
data_lens.append(len(data))
bytes_times.append(timeit(
'foreign_func(data)', globals=globals(), number=10))
memoryview_times.append(timeit(
'foreign_func(memoryview(data))', globals=globals(), number=10))




# output
df = DataFrame({
'data_len': data_lens,
'memoryview_time': memoryview_times,
'bytes_time': bytes_times
})
df['times_faster'] = df['bytes_time'] / df['memoryview_time']
print(df)
df[['memoryview_time', 'bytes_time']].plot()

结果:

     data_len  memoryview_time  bytes_time   times_faster
0          10         0.000019    0.000012       0.672033
1         100         0.000016    0.000011       0.690320
2        1000         0.000016    0.000013       0.833314
3       10000         0.000016    0.000037       2.387100
4      100000         0.000016    0.000086       5.300594
5     1000000         0.000018    0.001134      63.357466
6    10000000         0.000009    0.028672    3221.528855
7   100000000         0.000009    0.258822   28758.547214
8  1000000000         0.000009    2.779704  292601.789177

calling with bytes gets exponentially slower