Dd: 如何计算最佳块大小?

当运行 dd时,如何计算最佳块大小?我研究了一下,没有发现任何关于如何实现这一目标的建议。

我的印象是,一个更大的块大小将导致一个更快的 dd... 这是真的吗?

我将要 dd两个相同的500gb 日立硬盘驱动器运行在7200rpm 的一个盒子上运行英特尔酷睿 i3与4 GB DDR31333mhz 内存,所以我试图找出什么块大小使用。(我将从 U 盘启动 Ubuntu 10.10 x86,然后在 U 盘上运行它。)

218205 次浏览

最佳块大小取决于各种因素,包括操作系统(及其版本)以及所涉及的各种硬件总线和磁盘。几个类 Unix 系统(包括 Linux 和至少一些 BSD 风格)定义了 struct stat中的 st_blksize成员,它给出了内核认为是最佳的块大小:

#include <sys/stat.h>
#include <stdio.h>


int main(void)
{
struct stat stats;


if (!stat("/", &stats))
{
printf("%u\n", stats.st_blksize);
}
}

最好的方法可能是试验: 复制一个具有不同块大小和时间的千兆字节。(记住在每次运行之前清除内核缓冲区缓存: echo 3 > /proc/sys/vm/drop_caches)。

然而,根据经验,我发现足够大的块大小可以让 dd做得很好,比如说,64 KiB 和1 MiB 之间的差异很小,相比之下,4 KiB 和64 KiB 之间的差异很小。(不过,我得承认,我已经很久没这么做了。我现在默认使用一个 MB,或者让 dd选择大小。)

这完全依赖于系统。您应该进行试验以找到最佳解。 试着从 bs=8388608开始(因为日立硬盘似乎有8MB 的缓存)

  • 为了获得更好的性能,请使用 RAM 能够容纳的最大块大小(将向操作系统发送更少的 I/O 调用)
  • 为了更好的准确性和数据恢复设置块大小为本地扇区大小的输入

当 dd 使用 conv = noerror,sync 选项复制数据时,它遇到的任何错误都将导致块的其余部分被替换为零字节。块大小越大,复制速度越快,但每次出现错误时,块的其余部分都会被忽略。

来源

我发现我的最佳块大小是8MB (等于磁盘缓存?)我需要擦除(有人说: 清洗)磁盘上的空白空间,然后才能创建一个压缩的图像。 我用:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

我试验了从4K 到100M 的数值。

在让 dd 运行一段时间后,我关闭了 dd (Ctlr + C)并读取了输出:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

当 dd 显示输入/输出速率(在本例中为19.1 MB/s)时,很容易看出您选择的值是否比前一个值执行得更好或更差。

我的分数:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s

注意: 要检查磁盘缓存/缓冲区大小,可以使用 sudo hdparm -i /dev/sda

正如其他人所说,没有普遍正确的块大小; 对于一种情况或一种硬件最佳的大小对于另一种情况可能是非常低效的。另外,根据磁盘的健康状况,使用不同的块大小可能比使用“最佳”的块大小更可取。

在现代硬件中,有一点是相当可靠的,那就是默认的512字节的块大小几乎比更理想的替代数量级慢了一个数量级。当有疑问的时候,我发现64K 是一个相当可靠的现代默认值。虽然64K 通常不是最理想的块大小,在我的经验中,它往往比默认效率高得多。64K 还有一个相当可靠的历史是可靠的性能: 你可以找到一个邮件从 Eug-Lug 邮件列表,大约2002年,建议块大小的64K 在这里: http://www.mail-archive.com/eug-lug@efn.org/msg12073.html

为了确定最佳的输出块大小,我编写了以下脚本,测试在不同的块大小范围内使用 dd 编写一个128M 的测试文件,从默认的512字节到最大的64M。请注意,此脚本在内部使用 dd,因此请谨慎使用。

Dd _ obs _ test. sh:

#!/bin/bash


# Since we're dealing with dd, abort if any errors occur
set -e


TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728


if [ $EUID -ne 0 ]; then
echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi


# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'


# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
# Calculate number of segments required to copy
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))


if [ $COUNT -le 0 ]; then
echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
break
fi


# Clear kernel cache to ensure more accurate test
[ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches


# Create a test file with the specified block size
DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)


# Extract the transfer rate from dd's STDERR output
TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')


# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi


# Output the result
printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

GitHub 视图

我只在 Debian (Ubuntu)系统和 OSX Yosemite 上测试过这个脚本,所以它可能需要一些调整才能在其他 Unix 版本上运行。

默认情况下,该命令将在工作目录中创建一个名为 Dd _ obs _ testfile的测试文件。或者,可以通过在脚本名称后面提供路径来提供自定义测试文件的路径:

$ ./dd_obs_test.sh /path/to/disk/test_file

脚本的输出是一个测试块大小及其各自传输的列表 利率如下:

$ ./dd_obs_test.sh
block size : transfer rate
512 : 11.3 MB/s
1024 : 22.1 MB/s
2048 : 42.3 MB/s
4096 : 75.2 MB/s
8192 : 90.7 MB/s
16384 : 101 MB/s
32768 : 104 MB/s
65536 : 108 MB/s
131072 : 113 MB/s
262144 : 112 MB/s
524288 : 133 MB/s
1048576 : 125 MB/s
2097152 : 113 MB/s
4194304 : 106 MB/s
8388608 : 107 MB/s
16777216 : 110 MB/s
33554432 : 119 MB/s
67108864 : 134 MB/s

(注意: 传输速率的单位将因操作系统而异)

要测试最佳读块大小,您可以使用差不多相同的进程, 而不是从/dev/zero 读取并写入磁盘,而是从 执行该操作的脚本可能是这样的:

Dd _ ibs _ test. sh:

#!/bin/bash


# Since we're dealing with dd, abort if any errors occur
set -e


TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728


# Exit if file exists
if [ -e $TEST_FILE ]; then
echo "Test file $TEST_FILE exists, aborting."
exit 1
fi
TEST_FILE_EXISTS=1


if [ $EUID -ne 0 ]; then
echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi


# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1


# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'


# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
# Clear kernel cache to ensure more accurate test
[ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches


# Read test file out to /dev/null with specified block size
DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)


# Extract transfer rate
TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')


printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done


# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

GitHub 视图

在这种情况下,一个重要的区别是测试文件是由脚本编写的文件。不要将此命令指向现有文件,否则现有文件将被零覆盖!

对于我的特殊硬件,我发现128K 是硬盘上最佳的输入块大小,而32K 是固态硬盘上最佳的输入块大小。

虽然这个答案涵盖了我的大部分发现,但是我已经遇到过很多次这种情况,所以我写了一篇关于它的博客文章: http://blog.tdg5.com/tuning-dd-block-size/你可以找到我在那里执行的测试的更多细节。