c++标准是否要求iostreams的性能很差，或者我只是在处理一个糟糕的实现?

小开

您所看到的问题都存在于每次调用write()的开销中。您添加的每个抽象级别(char[] -> vector -> string -> ostringstream)都会添加更多的函数调用/返回和其他一些家务杂事，如果您调用它一百万次的话，这些杂事就会累加起来。

我修改了ideone上的两个例子，一次写10个int。ostringstream时间从53毫秒提高到6毫秒(几乎提高了10倍)，而char循环时间提高了(3.7到1.5)——很有用，但只是提高了两倍。

如果您非常关心性能，那么您需要为工作选择合适的工具。Ostringstream很有用，也很灵活，但是按照您试图使用的方式使用它是有代价的。Char[]是比较困难的工作，但是性能收益可能很大(请记住，GCC可能也会为您内联memcpys)。

简而言之，ostringstream没有损坏，但是越接近金属，代码运行就越快。对某些人来说，汇编器仍然有优势。

小开

为了获得更好的性能，您必须了解所使用的容器是如何工作的。在char[]数组示例中，所需大小的数组已提前分配。在vector和ostringstream的例子中，随着对象的增长，你强迫对象重复分配和重新分配数据，可能还会多次复制数据。

对于std::vector，这很容易通过初始化vector的大小到最终大小来解决，就像你做char数组一样;相反，您通过将大小调整为零而相当不公平地削弱了性能!这很难说是一个公平的比较。

对于ostringstream，预分配空间是不可能的，我认为这是一种不适当的使用。这个类比简单的char数组有更大的效用，但是如果您不需要这个效用，那么就不要使用它，因为在任何情况下您都会支付开销。相反，它应该用于它所擅长的地方——将数据格式化为字符串。c++提供了广泛的容器，ostringstream是最不适合用于此目的的容器之一。

在vector和ostringstream的情况下，你得到了防止缓冲区溢出的保护，而在char数组中你得不到这种保护，而且这种保护不是免费的。

小开

没有回答你的问题的细节那么多的标题:2006 c++性能技术报告有一个关于IOStreams的有趣的部分(第68页)。与你的问题最相关的是第6.1.2节(“执行速度”):

因为IOStreams处理的某些方面是它分布在多个方面看来标准要求低效率的实现。但这难道不是这样吗——用某种形式对于预处理，大部分工作都可以被避免的。稍微聪明一点链接器比通常使用的，它是有可能移除其中一些低效率。这在 §6.2.3和§6.2.5.

由于该报告是在2006年撰写的，人们会希望其中的许多建议已经被纳入目前的编纂者中，但情况可能并非如此。

正如你提到的，facet可能不会出现在write()中(但我不会盲目地假设)。那么特点是什么呢?在GCC编译的ostringstream代码上运行GProf会得到以下分解:

std::basic_streambuf<char>::xsputn(char const*, int)占44.23%
std::ostream::write(char const*, int)为34.62%
12.50%在main
std::ostream::sentry::sentry(std::ostream&)中的6.73%
std::string::_M_replace_safe(unsigned int, unsigned int, char const*, unsigned int)中的0.96%
std::basic_ostringstream<char>::basic_ostringstream(std::_Ios_Openmode)中的0.96%
std::fpos<int>::fpos(long long)中的0.00%

所以大部分时间都花在xsputn上，它在大量检查和更新游标位置和缓冲区后最终调用std::copy()(详细信息请参阅c++\bits\streambuf.tcc)。

我认为你只考虑了最坏的情况。如果您正在处理相当大的数据块，那么所执行的所有检查将是所做的全部工作的一小部分。但是您的代码每次只移动四个字节的数据，并且每次都会产生所有额外的成本。显然，在现实生活中，人们会避免这样做——考虑一下，如果write在一个包含1m个int的数组上调用，而不是在一个int上调用1m次，那么惩罚将是多么微不足道。在现实生活中，人们会真正欣赏IOStreams的重要特性，即它的内存安全和类型安全设计。这样的好处是有代价的，您编写的测试使得这些成本占据了执行时间。

小开

我对Visual Studio的用户很失望，他们在这个问题上很有发言权:

在ostream的Visual Studio实现中，sentry对象(标准要求的对象)进入临界区，保护streambuf(不要求的对象)。这似乎不是可选的，所以即使是单个线程使用的本地流，也需要支付线程同步的成本，因为它不需要同步。

这严重损害了使用ostringstream格式化消息的代码。直接使用stringbuf可以避免使用sentry，但是格式化的插入操作符不能直接作用于__abc3。对于Visual c++ 2010，与底层的stringbuf::sputn调用相比，临界区将使ostringstream::write减慢三倍。

查看Beldaz在newlib上的分析器数据，似乎很清楚gcc的sentry并没有做这样疯狂的事情。gcc下的ostringstream::write只比stringbuf::sputn长50%，但stringbuf本身比vc++下慢得多。并且两者与使用vector<char>进行I/O缓冲相比仍然非常不利，尽管与vc++下不同。

c++标准是否要求iostreams的性能很差，或者我只是在处理一个糟糕的实现?

基准

测试的基本原理

基准时间

结论