关于性能：非常快速地用C ++编写二进制文件

Writing a binary file in C++ very fast

我正在尝试将大量数据写入我的SSD(固态硬盘)。我指的是大量的80GB。

我浏览网页寻找解决方案，但我想到的最好办法是：

1
2
3
4
5
6
7
8
9
10
11
12
13
14

#include <fstream>
const unsigned long long size = 64ULL*1024ULL*1024ULL;
unsigned long long a[size];
int main()
{
std::fstream myfile;
myfile = std::fstream("file.binary", std::ios::out | std::ios::binary);
//Here would be some error handling
for(int i = 0; i < 32; ++i){
//Some calculations to fill a[]
myfile.write((char*)&a,size*sizeof(unsigned long long));
}
myfile.close();
}

使用Visual Studio 2010和完全优化进行编译，并在Windows7下运行，该程序最大速度约为20MB/s。真正让我困扰的是，Windows可以以150MB/s到200MB/s的速度将文件从其他SSD复制到该SSD。因此，速度至少快7倍。这就是为什么我认为我应该能走得更快。

有什么办法可以加快我的写作速度吗？

相关讨论

您尝试过使用磁盘缓冲设置吗？你可以通过Device Manager -> Disk drives -> right click on a drive设置。
您的计时结果是否排除了完成计算以填充[]所需的时间？
你试过记忆地图吗？
@菲利普，这有点破坏了写入磁盘的目的。
我以前确实做过这个任务。使用简单的fwrite()，我可以获得大约80%的峰值写入速度。只有有了FILE_FLAG_NO_BUFFERING，我才能获得最大速度。
我说的是在记忆中做这件事
使用Win32 API获取速度！msdn.microsoft.com/en-us/library/windows/desktop/&hellip；
在Windows上编程一个快速IO应用程序并不完全是这样。阅读高性能应用程序设计-第三部分
尝试最大化输出缓冲区大小并使写入完全相同。
我刚刚测试了这段代码，实际上它只实现了我的高清100+MB/s带宽的一小部分。隐马尔可夫模型。。。我在Windows中启用了磁盘缓存。
我不确定将你的文件写入与SSD复制进行比较是否公平。很可能SSD到SSD工作在较低的水平上，避免了C++库，或者使用直接内存访问(DMA)。复制某些内容与将任意值写入随机访问文件不同。
我刚刚写了一个FILE*或fwrite()等价物，它在我的机器上得到了90MB/s。使用C++流只得到20 Mb/s。去想象…
@igorf.：这只是个错误的猜测；这是一个完全公平的比较(如果没有其他的话，有利于文件编写)。在Windows中跨驱动器复制只是读写；下面没有任何花哨/复杂/不同的内容。
我想之前讨论过几次：使用内存映射文件。
@马克西米耶戈鲁什金：否则就不会发生。P
众所周知，iostreams的速度非常慢。参见stackoverflow.com/questions/4340396/&hellip；
你尝试过C++快速文件复制方法吗？stackoverflow.com/a/10195497/14065
@当使用格式化流操作(通常通过operator<<)时，iostreams速度很慢。当它是一个二进制文件，而您使用的是这种大小的块(512M)和使用write()时，std:：ofstream和file*之间的性能没有差别：请看我的答案。
@洛基：看看我的问题(我在之前的评论中把它联系起来了)。GLIMBC与Visual C++运行库之间的开销是不同的。因此，基于Linux基准测试的结论并不适用于这个问题。
如果可能的话，手动展开循环，这也有助于提高速度，这取决于编译器如何/如果为您展开代码。循环意味着处理器必须再次分支到循环的开始，并且分支相对昂贵。
我想知道没有人对这句话发表评论：myfile = fstream("file.binary", ios::out | ios::binary);。它甚至不会编译，因为stdlib中禁用了流类的复制语义。
是否没有任何低级别的系统例行程序？例如，在Windows上有copyfileex链接
@神秘的，如此巨大的差异(20MB/90MB)可以通过在编写过程中刷新/更新目录元数据等来解释。我已经很久没有在Windows上做任何C级的工作了，但这是我的第一个猜测。

这样做的目的是：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

#include <stdio.h>
const unsigned long long size = 8ULL*1024ULL*1024ULL;
unsigned long long a[size];

int main()
{
FILE* pFile;
pFile = fopen("file.binary","wb");
for (unsigned long long j = 0; j < 1024; ++j){
//Some calculations to fill a[]
fwrite(a, 1, size*sizeof(unsigned long long), pFile);
}
fclose(pFile);
return 0;
}

我刚刚在36秒内完成了8GB的计时，大约是220MB/s，我想这会使我的SSD最大化。同样值得注意的是，问题中的代码使用一个核心100%，而此代码只使用2-5%。

非常感谢大家。

更新：5年过去了。编译器、硬件、库和我的需求都发生了变化。这就是为什么我对代码做了一些修改并做了一些测量。

首先是代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71

#include <fstream>
#include <chrono>
#include <vector>
#include <cstdint>
#include <numeric>
#include <random>
#include
#include <iostream>
#include <cassert>

std::vector<uint64_t> GenerateData(std::size_t bytes)
{
assert(bytes % sizeof(uint64_t) == 0);
std::vector<uint64_t> data(bytes / sizeof(uint64_t));
std::iota(data.begin(), data.end(), 0);
std::shuffle(data.begin(), data.end(), std::mt19937{ std::random_device{}() });
return data;
}

long long option_1(std::size_t bytes)
{
std::vector<uint64_t> data = GenerateData(bytes);

auto startTime = std::chrono::high_resolution_clock::now();
auto myfile = std::fstream("file.binary", std::ios::out | std::ios::binary);
myfile.write((char*)&data[0], bytes);
myfile.close();
auto endTime = std::chrono::high_resolution_clock::now();

return std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count();
}

long long option_2(std::size_t bytes)
{
std::vector<uint64_t> data = GenerateData(bytes);

auto startTime = std::chrono::high_resolution_clock::now();
FILE* file = fopen("file.binary","wb");
fwrite(&data[0], 1, bytes, file);
fclose(file);
auto endTime = std::chrono::high_resolution_clock::now();

return std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count();
}

long long option_3(std::size_t bytes)
{
std::vector<uint64_t> data = GenerateData(bytes);

std::ios_base::sync_with_stdio(false);
auto startTime = std::chrono::high_resolution_clock::now();
auto myfile = std::fstream("file.binary", std::ios::out | std::ios::binary);
myfile.write((char*)&data[0], bytes);
myfile.close();
auto endTime = std::chrono::high_resolution_clock::now();

return std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count();
}

int main()
{
const std::size_t kB = 1024;
const std::size_t MB = 1024 * kB;
const std::size_t GB = 1024 * MB;

for (std::size_t size = 1 * MB; size <= 4 * GB; size *= 2) std::cout <<"option1," << size / MB <<"MB:" << option_1(size) <<"ms" << std::endl;
for (std::size_t size = 1 * MB; size <= 4 * GB; size *= 2) std::cout <<"option2," << size / MB <<"MB:" << option_2(size) <<"ms" << std::endl;
for (std::size_t size = 1 * MB; size <= 4 * GB; size *= 2) std::cout <<"option3," << size / MB <<"MB:" << option_3(size) <<"ms" << std::endl;

return 0;
}

现在，代码与Visual Studio 2017和G++7.2.0(现在是我的要求之一)一起编译。我使用两种设置运行代码：

笔记本电脑，核心I7，SSD，Ubuntu 16.04，G+版本7.2.0，-STD＝C++ 11 -三月=原生-O3
桌面、Core i7、SSD、Windows 10、Visual Studio 2017版本15.3.1和/ox/ob2/oi/ot/gt/gl/gy

它给出了以下测量值(在丢弃1MB的值后，因为它们是明显的异常值)： enter image description here 选项1和选项3都是我的SSD的最大输出。我没想到会出现这种情况，因为选项2曾经是我机器上最快的代码。

tl；dr：我的测量结果表明在FILE上使用std::fstream。

相关讨论

+是的，这是我第一次尝试。FILE*比溪流快。我不希望有这样的区别，因为不管怎样，它"本应"受到I/O的约束。
我们能得出结论，C风格I/O是(奇怪地)比C++流快得多吗？
@谢普林：如果你是个学究，可能不会。如果你很实际，可能是的。：)
你能解释一下(对于像我这样的C++ DunCE)这两种方法之间的区别，以及为什么这个方法比原来的速度快得多？
预处理ios::sync_with_stdio(false);是否对带有流的代码有任何区别？我只是好奇使用这条线和不使用这条线有多大的区别，但是我没有足够快的磁盘来检查角落的情况。如果真的有什么区别的话。
是的，C文件快几倍。但是为什么呢？难道不应该有一些优化的C++流可以与之竞争吗？我也编写大型二进制文件，这将是好的，不必调用C例程在C++类。
您不是在写8GB，而是8*1024^3*sizeof(long long long)
FILE指针是我测试过的最快的方法…
为什么一次写size*sizeof(unsigned long long)？逻辑是什么？您的硬盘块、扇区和内存页面大小是多少？
请注意，即使是专门处理缓冲等问题，fwrite的性能也会有很大的差异—从size和count参数中移动项目会产生差异，使用循环中断对fwrite的调用也会产生差异。我在解决另一个问题时遇到了这个问题。
这个程序复制64GB，没有时间码(所以你的"填充A[]"显然是在计时)，所以任何结论都是无用的。
@Jimbalter——他显然在检查应用程序之外的磁盘I/O速率，还有许多对这个问题发表评论的人。
我认为方案1和方案3完全没有区别。此外，您对每种尺寸的每个微基准运行了多少次？我很难相信江户十一〔六〕比溪水慢。如果速度慢的话，这意味着无论您使用的是什么标准库，要么使用的是更好的FILE*，要么它使用的是较低级别的API。
也许性能改进可以来自于使用write而不是fwrite(无缓冲与缓冲IO)
我用我修改过的程序做了更多的测试，可以生成二进制和ASCII数据。这里是readwritetest.cpp，这里是我的二进制数据集和ASCII数据集，以及真实的应用程序测试。
这也适用于在文件中写入浮点数吗？如果没有，你能给我指一些资源吗？

按顺序尝试以下操作：

较小的缓冲区大小。一次写2兆字节可能是个好的开始。在我上一台笔记本电脑上，~512 kib是最佳选择，但我还没有在固态硬盘上测试过。
注意：我注意到非常大的缓冲区会降低性能。我注意到以前使用16 mib缓冲区而不是512 kib缓冲区会造成速度损失。
使用_open或_topen打开文件，然后使用_write。这可能会避免大量的缓冲，但不一定。
使用特定于Windows的函数，如CreateFile和WriteFile。这将避免标准库中的任何缓冲。

相关讨论

我看不到std:：stream/file/device之间的区别。在缓冲和非缓冲之间。

还要注意：

SSD驱动器在充满时"趋向"减慢(传输速率较低)。
当SSD驱动器变老(由于非工作位)时，它们"趋向"减慢(传输速率较低)。

我看到代码在63秒内运行。因此传输速率为：260m/s(我的SSD看起来比您的稍快)。

1
2
3
4

64 * 1024 * 1024 * 8 /*sizeof(unsigned long long) */ * 32 /*Chunks*/

= 16G
= 16G/63 = 260M/s

从std：：fstream移到file*不会增加。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

#include <stdio.h>

using namespace std;

int main()
{

FILE* stream = fopen("binary","w");

for(int loop=0;loop < 32;++loop)
{
fwrite(a, sizeof(unsigned long long), size, stream);
}
fclose(stream);

}

因此，C++流的工作速度与底层库所允许的速度一样快。

但我认为将操作系统与构建在操作系统之上的应用程序进行比较是不公平的。应用程序不能做任何假设(它不知道驱动器是SSD)，因此使用操作系统的文件机制进行传输。

而操作系统不需要做任何假设。它可以区分所涉及的驱动器类型，并使用最佳技术传输数据。在这种情况下，直接内存到内存的传输。尝试编写一个程序，将80G从内存中的一个位置复制到另一个位置，看看速度有多快。

编辑

我更改了代码以使用低级调用：没有缓冲。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

#include <fcntl.h>
#include <unistd.h>

const unsigned long long size = 64ULL*1024ULL*1024ULL;
unsigned long long a[size];
int main()
{
int data = open("test", O_WRONLY | O_CREAT, 0777);
for(int loop = 0; loop < 32; ++loop)
{
write(data, a, size * sizeof(unsigned long long));
}
close(data);
}

这并没有什么不同。

注意：我的驱动器是一个SSD驱动器如果您有一个正常的驱动器，您可能会看到上面两种技术之间的差异。但正如我预期的那样，非缓冲和缓冲(当写入大于缓冲区大小的大块时)没有什么区别。

编辑2：

你尝试过最快的C++文件复制方法吗？

1
2
3
4
5
6
7

int main()
{
std::ifstream input("input");
std::ofstream output("ouptut");

output << input.rdbuf();
}

相关讨论

我没有投反对票，但你的缓冲区太小了。我用操作系统正在使用的512MB缓冲区做了这个测试，流速度为20MB/s，FILE*速度为90MB/s。
另外，使用fwrite(a，size of(unsigned long long long)，size，stream)的方法；而不是fwrite(a，1，size*size of(unsigned long long)，pfile)；给我220MB/s，每次写入64MB的块。
@神秘：让我惊讶的是，缓冲区的大小会有不同(尽管我相信你)。当您有很多小的写入操作时，缓冲区很有用，这样底层设备就不会受到许多请求的干扰。但是，当你写大量的数据块时，在写/读时(在一个阻塞设备上)不需要缓冲区。因此，数据应该直接传递到底层设备(因此通过传递缓冲区)。不过，如果您看到不同之处，这将与此相矛盾，让我想知道为什么写操作实际上使用了一个缓冲区。
最好的解决方案不是增加缓冲区的大小，而是删除缓冲区并使写操作将数据直接传递给底层设备。
但这并没有改变我的看法，尽管这是一个不公平的比较。
好吧，每次调用fwrite()时，您都会有通常的函数调用开销以及其中的其他错误检查/缓冲开销。因此，您需要块"足够大"，以使开销变得无关紧要。根据我的经验，通常大约是几百字节到几千字节。如果没有内部缓冲，它很容易超过1MB，因为您可能还需要补偿磁盘搜索延迟。(内部缓冲将合并多个小的写入。)
@神秘：1)没有小块=>它总是足够大(在本例中)。在这种情况下，块为512M2)，这是一个SSD驱动器(包括Mine和OP)，因此这些都不相关。我已经更新了我的答案。
这可能是操作系统问题。你在Linux上吗？我的所有结果都在Windows上。也许Windows下面有一个更重的I/O接口。OP用C++流报告100%个CPU，用EDCOX1引用2个百分点。
@使用SSD驱动器的BSD Linux(IE Mac)。
好的。+1个用于编辑。我想你不能使用C++流获得100%个CPU。我只是在TM打开的情况下重新进行测试，它肯定会占据整个核心。如果是这种情况，那么我们可以得出结论，这是操作系统或实现。
@神秘：你用的是固态硬盘还是旋转硬盘？
正常HD。尽管我怀疑这很重要，因为OS写合并。
@帕尼切普：我不知道这两个电话有什么区别。整体尺寸相同。它不像是在它下面旋转一个循环，并调用大小写size of(无符号长字节)。接口的存在是为了便于在接口下面编写代码，唯一的区别是缓冲区的总大小。

最好的解决方案是使用双缓冲实现异步写入。

看看时间线：

1 2	------------------------------------------------> FF\|WWWWWWWW\|FF\|WWWWWWWW\|FF\|WWWWWWWW\|FF\|WWWWWWWW\|

"f"表示缓冲区填充时间，"w"表示将缓冲区写入磁盘的时间。因此，在将缓冲区写入文件之间浪费时间的问题。但是，通过在单独的线程上实现写操作，可以立即开始填充下一个缓冲区，如下所示：

1
2
3
4

F-填充第一个缓冲区
F-填充第二个缓冲区
w-将第一个缓冲区写入文件
w-将第二个缓冲区写入文件
_-操作完成时等待

当填充缓冲区需要更复杂的计算(因此需要更多的时间)时，使用缓冲区交换的这种方法非常有用。我总是实现一个CSSequentialStreamWriter类，它将异步写入隐藏在内部，因此对于最终用户，该接口只有写入函数。

缓冲区大小必须是磁盘群集大小的倍数。否则，您将向两个相邻的磁盘集群写入一个缓冲区，从而导致性能低下。

正在写入最后一个缓冲区。最后一次调用写函数时，必须确保当前正在填充的缓冲区也应该写入磁盘。因此，CSSequentialStreamWriter应该有一个单独的方法，比如Finalize(最终缓冲区刷新)，它应该将数据的最后一部分写入磁盘。

错误处理。当代码开始填充第二个缓冲区时，第一个缓冲区被写到一个单独的线程上，但是由于某种原因写失败了，主线程应该意识到这个失败。

1
2
3
4

------------------------------------------------> (main thread, fills buffers)
FF|fX|
------------------------------------------------> (writer thread)
__|X|

假设CSSequentialStreamWriter的接口具有write函数，返回bool或引发异常，因此在单独的线程上有错误，您必须记住该状态，因此下次在主线程上调用write或finize时，该方法将返回false或引发异常。在什么时候停止填充缓冲区并不重要，即使在失败之后提前写了一些数据——很有可能文件会被损坏并且无用。

相关讨论

我建议尝试文件映射。我以前在Unix环境中使用过mmap，我对自己能够实现的高性能印象深刻。

相关讨论

你能用FILE*来代替，并衡量你所取得的成绩吗？有两种选择是使用fwrite/write而不是fstream：

1
2
3
4
5
6
7
8
9
10
11

#include <stdio.h>

int main ()
{
FILE * pFile;
char buffer[] = { 'x' , 'y' , 'z' };
pFile = fopen ("myfile.bin" ,"w+b" );
fwrite (buffer , 1 , sizeof(buffer) , pFile );
fclose (pFile);
return 0;
}

如果您决定使用write，请尝试类似的方法：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

#include <unistd.h>
#include <fcntl.h>

int main(void)
{
int filedesc = open("testfile.txt", O_WRONLY | O_APPEND);

if (filedesc < 0) {
return -1;
}

if (write(filedesc,"This will be output to testfile.txt
", 36) != 36) {
write(2,"There was an error writing to testfile.txt
", 43);
return -1;
}

return 0;
}

我也建议你调查一下memory map。那可能是你的答案。有一次，我不得不在另一个数据库中处理一个20GB的文件，而这个文件甚至没有打开。因此，利用moemory图的解决方案。不过，我是在江户城做的。

相关讨论

尝试使用open()/write()/close()API调用并尝试输出缓冲区大小。我的意思是不要一次传递整个"许多字节"缓冲区，进行几次写入(即totalNumBytes/outBufferSize)。OutBufferSize可以是4096字节到兆字节。

另一个尝试-使用winapi openfile/createfile并使用此msdn文章关闭缓冲(file_flag_no_buffering)。这个关于writefile()的msdn文章展示了如何获取块大小，以便让驱动器知道最佳缓冲区大小。

总之，std:：ofstream是一个包装器，可能会阻塞I/O操作。记住，遍历整个n-gigabyte数组也需要一些时间。当您在写一个小的缓冲区时，它会到达缓存并工作得更快。

fstreams本身并不比C流慢，但它们使用更多的CPU(特别是在缓冲配置不正确的情况下)。当CPU饱和时，它会限制I/O速率。

当没有设置流缓冲时，至少MSVC 2015实现一次将1个字符复制到输出缓冲区(参见streambuf::xsputn)。因此，请确保设置流缓冲区(>0)。

使用此代码，我可以获得1500 MB/s的写入速度(我的M.2 SSD的全速)，使用fstream：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70

#include <iostream>
#include <fstream>
#include <chrono>
#include <memory>
#include <stdio.h>
#ifdef __linux__
#include <unistd.h>
#endif
using namespace std;
using namespace std::chrono;
const size_t sz = 512 * 1024 * 1024;
const int numiter = 20;
const size_t bufsize = 1024 * 1024;
int main(int argc, char**argv)
{
unique_ptr<char[]> data(new char[sz]);
unique_ptr<char[]> buf(new char[bufsize]);
for (size_t p = 0; p < sz; p += 16) {
memcpy(&data[p],"BINARY.DATA.....", 16);
}
unlink("file.binary");
int64_t total = 0;
if (argc < 2 || strcmp(argv[1],"fopen") != 0) {
cout <<"fstream mode
";
ofstream myfile("file.binary", ios::out | ios::binary);
if (!myfile) {
cerr <<"open failed
"; return 1;
}
myfile.rdbuf()->pubsetbuf(buf.get(), bufsize); // IMPORTANT
for (int i = 0; i < numiter; ++i) {
auto tm1 = high_resolution_clock::now();
myfile.write(data.get(), sz);
if (!myfile)
cerr <<"write failed
";
auto tm = (duration_cast<milliseconds>(high_resolution_clock::now() - tm1).count());
cout << tm <<" ms
";
total += tm;
}
myfile.close();
}
else {
cout <<"fopen mode
";
FILE* pFile = fopen("file.binary","wb");
if (!pFile) {
cerr <<"open failed
"; return 1;
}
setvbuf(pFile, buf.get(), _IOFBF, bufsize); // NOT important
auto tm1 = high_resolution_clock::now();
for (int i = 0; i < numiter; ++i) {
auto tm1 = high_resolution_clock::now();
if (fwrite(data.get(), sz, 1, pFile) != 1)
cerr <<"write failed
";
auto tm = (duration_cast<milliseconds>(high_resolution_clock::now() - tm1).count());
cout << tm <<" ms
";
total += tm;
}
fclose(pFile);
auto tm2 = high_resolution_clock::now();
}
cout <<"Total:" << total <<" ms," << (sz*numiter * 1000 / (1024.0 * 1024 * total)) <<" MB/s
";
}

我在其他平台(Ubuntu、FreeBsd)上尝试了这段代码，没有发现I/O速率的差异，但是CPU使用率的差异约为8:1(fstream使用了8倍的CPU)。所以可以想象，如果我有一个更快的磁盘，fstream的写入速度会比stdio版本更快。

如果在资源管理器中将某些内容从磁盘A复制到磁盘B，Windows将使用DMA。这意味着在大多数复制过程中，CPU除了告诉磁盘控制器放在哪里，从哪里获取数据之外，基本上什么也不做，消除了链中的整个步骤，以及一个根本不适合移动大量数据的步骤——我的意思是硬件。

你所做的工作涉及CPU很多。我想给你指出"一些计算来填充一个[]部分"。我认为这是必要的。生成一个[]，然后从一个[]复制到一个输出缓冲区(这就是fstream:：write所做的)，然后再次生成，等等。

怎么办？多线程！(我希望你有一个多核处理器)

叉子。
使用一个线程生成[]数据
另一个用于将数据从[]写入磁盘
您需要两个数组a1[]和a2[]并在它们之间切换
您将需要在线程之间进行某种同步(信号量、消息队列等)。
使用低级的、无缓冲的函数，如mehrdad提到的writefile函数

尝试使用内存映射文件。

相关讨论

我觉得他们不是个好主意。
@但是为什么？因为它是一个依赖平台的解决方案？
不。。。这是因为为了快速地顺序写入文件，您需要一次写入大量数据。(比如说，2-mib块可能是一个很好的起点。)内存映射文件不允许您控制粒度，因此无论内存管理器决定为您预取/缓冲区什么，您都要受其支配。总的来说，我从来没有见过它们像使用ReadFile进行正常的读/写那样有效，而对于顺序访问，尽管对于随机访问，它们可能更好。
但是内存映射文件被操作系统用于分页，例如。我认为这是一种高度优化(速度方面)的读/写数据方式。
@Qehgt和每个人都知道寻呼很糟糕…
@神秘主义：人们"知道"许多明显错误的事情。
@qehgt：如果有的话，分页对于随机访问比顺序访问更为优化。读取一页数据要比在一次操作中读取1兆字节数据慢得多。
@我是根据经验说的。一旦您将一个依赖分页的工作站加载。自动>1000倍减速。不仅如此，它还通常将计算机挂起到需要重置的位置。
@神秘：你混淆了两个相反的东西。将需要在内存中调出的内容与将存储在磁盘上的数据分页到缓存中完全不同。页面文件管理器对两者都负责(两者都是"内存映射文件")。
@也许我是。哪两件事？
@神秘的：他是指(1)有需要在内存中调出的东西，(2)有数据存储在磁盘上缓存在*中。东西可以不存储在磁盘上就被调出。(不过，我通常也会关闭页面文件，但原因不同。)
@梅尔达：你最好做一个基准，而不是假设事实。与C(即文件)和C++(即，IoSoW)相比，我已经成功地使用了具有大速度UPS的顺序访问模式的内存映射文件。
@梅尔达：嗯？除了一个更大、更慢的内存外，其他东西都被调出到哪里去了？缓存层次结构就是这样工作的。
@ AlefSin：是的，但是注意到我在Windows中推荐了EDCOX1 0，而不是C或C++的标准函数。内存映射文件更快，但不是最快。
@嗯，也许是"翻页"这个词不对吧？我的意思是页面可能会失效，系统必须再次从磁盘中提取页面。(例如可执行文件)
@我觉得你把阅读和写作混淆了。预取等等，你做了很多，不适用于写作。
@我不是在说写作，我的错。我说的是寻呼，因为这是神秘的话题。
@迈尔达德：那仍然被传到磁盘上。这个文件是实际的可执行文件，而不是页面文件，如果页面没有变脏，它不会引起磁盘写入，但机制是相同的。(尽管如果页面被修改，例如重新定位/非首选加载地址，它将变脏并写入页面文件)
@本沃伊特：如果"翻页"是指"标记为需要重新阅读"，那么当然。我不使用这个术语，因为我觉得它意味着必须将页面写入磁盘，而磁盘却没有(如果这个术语不意味着这一点，那么它可能只是我一个人)。
我明白为什么mods讨厌我们这些长评论线程。xd@mehrdad是的，我知道我在哪里困惑了。谢谢

如果要快速写入文件流，则可以使流的读取缓冲区变大：

1
2
3
4

wfstream f;
const size_t nBufferSize = 16184;
wchar_t buffer[nBufferSize];
f.rdbuf()->pubsetbuf(buffer, nBufferSize);

此外，在向文件写入大量数据时，逻辑扩展文件大小而不是物理扩展文件大小有时会更快，这是因为在逻辑扩展文件时，文件系统在写入文件之前不会将新的空间清空。在逻辑上扩展文件比防止大量文件扩展实际需要的还要多也是明智的。通过在XFS系统上使用XFS_IOC_RESVSP64调用SetFileValidData或xfsctl在Windows上支持逻辑文件扩展。

我在gcc中用gnu/linux编译程序，在win 7和win xp中用mingw编译程序，效果很好

您可以使用我的程序创建一个80 GB的文件，只需将第33行更改为

1	makeFile("Text.txt",1024,8192000);

退出程序时，文件将被销毁，然后在文件运行时进行检查。

有你想要的程序就改变程序

第一个是Windows程序，第二个是GNU/Linux程序

http://mustafajf.persiangig.com/projects/file/winfile.cpp

http://mustafajf.persiangig.com/projects/file/file.cpp