关于C#：”switch”比”if”快吗？

Is 'switch' faster than 'if'?

一个switch语句实际上比一个if语句快吗？

我在VisualStudio 2010的X64 C++编译器上运行了代码，其中EDCOX1引用2标记：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

#include <stdlib.h>
#include <stdio.h>
#include <time.h>

#define MAX_COUNT (1 << 29)
size_t counter = 0;

size_t testSwitch()
{
clock_t start = clock();
size_t i;
for (i = 0; i < MAX_COUNT; i++)
{
switch (counter % 4 + 1)
{
case 1: counter += 4; break;
case 2: counter += 3; break;
case 3: counter += 2; break;
case 4: counter += 1; break;
}
}
return 1000 * (clock() - start) / CLOCKS_PER_SEC;
}

size_t testIf()
{
clock_t start = clock();
size_t i;
for (i = 0; i < MAX_COUNT; i++)
{
const size_t c = counter % 4 + 1;
if (c == 1) { counter += 4; }
else if (c == 2) { counter += 3; }
else if (c == 3) { counter += 2; }
else if (c == 4) { counter += 1; }
}
return 1000 * (clock() - start) / CLOCKS_PER_SEC;
}

int main()
{
printf("Starting...
");
printf("Switch statement: %u ms
", testSwitch());
printf("If statement: %u ms
", testIf());
}

得到这些结果：

Switch statement: 5261 ms
If statement: 5196 ms

据我所知，switch语句显然使用跳转表来优化分支。

问题：

X86或X64中的基本跳转表是什么样子的？

此代码是否使用跳转表？

为什么这个例子中没有性能差异？在任何情况下，是否存在显著的性能差异？

代码的分解：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

testIf:

13FE81B10 sub rsp,48h
13FE81B14 call qword ptr [__imp_clock (13FE81128h)]
13FE81B1A mov dword ptr [start],eax
13FE81B1E mov qword ptr [i],0
13FE81B27 jmp testIf+26h (13FE81B36h)
13FE81B29 mov rax,qword ptr [i]
13FE81B2E inc rax
13FE81B31 mov qword ptr [i],rax
13FE81B36 cmp qword ptr [i],20000000h
13FE81B3F jae testIf+0C3h (13FE81BD3h)
13FE81B45 xor edx,edx
13FE81B47 mov rax,qword ptr [counter (13FE835D0h)]
13FE81B4E mov ecx,4
13FE81B53 div rax,rcx
13FE81B56 mov rax,rdx
13FE81B59 inc rax
13FE81B5C mov qword ptr [c],rax
13FE81B61 cmp qword ptr [c],1
13FE81B67 jne testIf+6Dh (13FE81B7Dh)
13FE81B69 mov rax,qword ptr [counter (13FE835D0h)]
13FE81B70 add rax,4
13FE81B74 mov qword ptr [counter (13FE835D0h)],rax
13FE81B7B jmp testIf+0BEh (13FE81BCEh)
13FE81B7D cmp qword ptr [c],2
13FE81B83 jne testIf+89h (13FE81B99h)
13FE81B85 mov rax,qword ptr [counter (13FE835D0h)]
13FE81B8C add rax,3
13FE81B90 mov qword ptr [counter (13FE835D0h)],rax
13FE81B97 jmp testIf+0BEh (13FE81BCEh)
13FE81B99 cmp qword ptr [c],3
13FE81B9F jne testIf+0A5h (13FE81BB5h)
13FE81BA1 mov rax,qword ptr [counter (13FE835D0h)]
13FE81BA8 add rax,2
13FE81BAC mov qword ptr [counter (13FE835D0h)],rax
13FE81BB3 jmp testIf+0BEh (13FE81BCEh)
13FE81BB5 cmp qword ptr [c],4
13FE81BBB jne testIf+0BEh (13FE81BCEh)
13FE81BBD mov rax,qword ptr [counter (13FE835D0h)]
13FE81BC4 inc rax
13FE81BC7 mov qword ptr [counter (13FE835D0h)],rax
13FE81BCE jmp testIf+19h (13FE81B29h)
13FE81BD3 call qword ptr [__imp_clock (13FE81128h)]
13FE81BD9 sub eax,dword ptr [start]
13FE81BDD imul eax,eax,3E8h
13FE81BE3 cdq
13FE81BE4 mov ecx,3E8h
13FE81BE9 idiv eax,ecx
13FE81BEB cdqe
13FE81BED add rsp,48h
13FE81BF1 ret

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53

testSwitch:

13FE81C00 sub rsp,48h
13FE81C04 call qword ptr [__imp_clock (13FE81128h)]
13FE81C0A mov dword ptr [start],eax
13FE81C0E mov qword ptr [i],0
13FE81C17 jmp testSwitch+26h (13FE81C26h)
13FE81C19 mov rax,qword ptr [i]
13FE81C1E inc rax
13FE81C21 mov qword ptr [i],rax
13FE81C26 cmp qword ptr [i],20000000h
13FE81C2F jae testSwitch+0C5h (13FE81CC5h)
13FE81C35 xor edx,edx
13FE81C37 mov rax,qword ptr [counter (13FE835D0h)]
13FE81C3E mov ecx,4
13FE81C43 div rax,rcx
13FE81C46 mov rax,rdx
13FE81C49 inc rax
13FE81C4C mov qword ptr [rsp+30h],rax
13FE81C51 cmp qword ptr [rsp+30h],1
13FE81C57 je testSwitch+73h (13FE81C73h)
13FE81C59 cmp qword ptr [rsp+30h],2
13FE81C5F je testSwitch+87h (13FE81C87h)
13FE81C61 cmp qword ptr [rsp+30h],3
13FE81C67 je testSwitch+9Bh (13FE81C9Bh)
13FE81C69 cmp qword ptr [rsp+30h],4
13FE81C6F je testSwitch+0AFh (13FE81CAFh)
13FE81C71 jmp testSwitch+0C0h (13FE81CC0h)
13FE81C73 mov rax,qword ptr [counter (13FE835D0h)]
13FE81C7A add rax,4
13FE81C7E mov qword ptr [counter (13FE835D0h)],rax
13FE81C85 jmp testSwitch+0C0h (13FE81CC0h)
13FE81C87 mov rax,qword ptr [counter (13FE835D0h)]
13FE81C8E add rax,3
13FE81C92 mov qword ptr [counter (13FE835D0h)],rax
13FE81C99 jmp testSwitch+0C0h (13FE81CC0h)
13FE81C9B mov rax,qword ptr [counter (13FE835D0h)]
13FE81CA2 add rax,2
13FE81CA6 mov qword ptr [counter (13FE835D0h)],rax
13FE81CAD jmp testSwitch+0C0h (13FE81CC0h)
13FE81CAF mov rax,qword ptr [counter (13FE835D0h)]
13FE81CB6 inc rax
13FE81CB9 mov qword ptr [counter (13FE835D0h)],rax
13FE81CC0 jmp testSwitch+19h (13FE81C19h)
13FE81CC5 call qword ptr [__imp_clock (13FE81128h)]
13FE81CCB sub eax,dword ptr [start]
13FE81CCF imul eax,eax,3E8h
13FE81CD5 cdq
13FE81CD6 mov ecx,3E8h
13FE81CDB idiv eax,ecx
13FE81CDD cdqe
13FE81CDF add rsp,48h
13FE81CE3 ret

更新：

有趣的结果。但不知道为什么一个人更快，一个人更慢。

相关讨论

您的较长示例存在缺陷，编译器和优化器可以(而且显然非常琐碎)证明1-4范围之外的情况不会发生，因此这些情况被排除，至少在if情况下是如此。
@黑斯图尔昆：你说得对，我没有看到这种情况发生。而且，不仅如此——即使我把它改为20，它还是一样的。但当我把它改为21时，switch的性能就大大超过了if的性能。似乎缺乏"违约"案例确实影响了这一点。
对于switch来说，mod 21的情况更快，因为它(至少在我的编译器上)执行单范围比较，如果超出范围，跳过跳转表。而if总是按顺序进行比较。
如果编译器确实生成了一个跳转表，我会感到惊讶。它将只引入一个包含64位大指针的表和一个无意义样板文件负载，以便在目标之间进行分支。
@黑斯图尔昆：你见过美国医学会证明这一点吗？如果有的话就贴出来。像@packetscience一样，如果这种优化仍然在使用中，我会非常惊讶。(虽然@packetscience，但它不会是64位指针；在x86上，这些跳转可能是间接的(只需要char的偏移空间)
对于那些以"非建设性"结束投票的人，你能解释一下为什么吗？在我看来这是个很好的问题。
到底是什么让人们投票结束这种想法？他们是否如此相信完美优化编译器的概念，以至于有人认为它生成的代码不太理想，这是异端？任何优化的想法都会冒犯他们吗？
@所有亲密的投票者：既然你已经完成了你的计划，你愿意花大约30秒的时间来解释是什么导致了它？这的确让我困惑。
这个问题到底出了什么问题？
"CMP QWORD PTR[RSP+30H]、1"和"JE TESTSWITCH+87H(13FE81C87H)"等线路与白天一样清晰……比较cmp，等于je时跳。在这种情况下，编译器显然没有生成跳转表。在将if/else机器代码与自身进行比较时，所测量的时差是一个随机错误。你真的试着读过大会吗？
@比利约内尔：我特别提到的是有20个箱子的21型，实际上比我原来想象的还要糟糕，因为在第一步之后，counter=20，这使得它完全跳过开关(及其跳台)，因为21>20。(我使用的是x86，btw，而不是64位平台)，if代码最终会检查1-20，使其速度变慢。mod 20大小写只使用第一个大小写，所以它是热代码，缓存很好。
对于任何想知道这个问题出了什么问题的人来说：首先，这不是一个问题，而是3个问题，这意味着许多答案现在都解决了不同的问题。这意味着很难接受任何回答所有问题的答案。此外，对上述问题的典型膝跳反应是将其关闭为"不太有趣"，主要是因为在这种优化级别上，您几乎总是过早地进行优化。最后，5196对5261不足以真正关心。编写有意义的逻辑代码。
"这个问题不符合我们的问答格式。我们希望答案通常涉及事实、参考资料或特定专业知识；这个问题可能会征求意见、辩论、辩论、投票或扩展讨论。"
@拉西：你真的希望我把三个问题贴在上面吗？还有：5196 vs. 5261 shouldn't be enough to actually care->我不确定你是否误解了问题，或者我是否误解了你的评论，但我的问题的关键不是要问为什么没有区别吗？(我有没有说过这是一个值得关注的显著差异？)
@罗伯特：是的，我确实能读到常见问题解答。：)但是你指的是哪一部分？(我真的在这里"投票"吗？如果不是，你的意思是什么？
除了投票以外的一切。意见、辩论、辩论和广泛讨论。这个问题出现在国防部的雷达上，因为一个答案有20多条评论。
我宁愿你问一个问题，这样问题就符合这样的模式。此外，我们在这里遇到了许多未知因素，如CPU管道、跳转预测、缓存处理等，除了编译器，很可能没有人能真正回答这个问题。这就是为什么我说你不应该在意的原因，即使你有一些数字显示它们是相等的，或者它们略有不同。
@罗伯特：嗯，它只有20多条评论，因为它们是元评论。这里只有7条与这个问题相关的评论。意见：我不知道这里有什么"意见"。我没有看到性能差异是有原因的，不是吗？只是味道吗？辩论：也许吧，但对我来说，这是一种健康的辩论，就像我在其他地方看到的那样(如果有什么相反的地方，请告诉我)。论点：我不认为这里有什么争论性的东西(除非你把它当作‘辩论’的同义词？).扩展讨论：如果您包含这些元注释。
我只是想告诉你为什么你的问题第一次被关闭。常见问题解答指出，"你应该只根据你所面临的实际问题提出实际的、可回答的问题。"虽然这个问题可能很有趣，但很难想象它是如何被定性为基于实际问题的实际问题的。
这就是为什么你也看不到我们竞相关闭它的原因。这个问题有很好的内容，但对于未来，尽量避免问多个问题，使其他问题派生出来(即，如果你问的一个问题被回答了，未回答的问题的答案是隐含的)，或类似的，这样它将更适合于SO的问题回答模型。现在，你会得到一种民意测验，人们会对不同的答案进行投票，但你仍然只能接受其中一个答案。
@罗伯特：实际问题是使用switch对if。我经常遇到这个问题(例如，如果你真的需要一个具体的例子，我为D做的雷克萨斯)，我想知道为什么我会或不会看到性能差异。当然，这个例子更为一般，因为重点不是制造一个雷克萨斯(这只是一种情况，在很多情况下…另一个包括矩阵乘法优化等)。仅仅因为很难想象它是实用的并不意味着它不是！
@拉斯："为了将来，尽量避免问不止一个问题"-->当然，可能很难一直避免，但我会努力的。谢谢你的建议！：)
我很惊讶ICC/GCC/Clang -O3(godbolt.org/g/ovvjhu)没有人注意到他们可以将此作为counter += 5 - (counter%4)来实现，即counter += 5 - (counter&3)。而且，一旦我们达到了counter += 4;的情况，它总是重复的，所以您可以只做counter += 4 * i; break;。

编译器可以在开关上进行几种优化。不过，我不认为经常提到的"跳转表"是非常有用的，因为它只在输入可以以某种方式绑定时工作。

"跳转表"的C伪代码是这样的——注意，实际上编译器需要在表周围插入某种形式的if测试，以确保输入在表中有效。还要注意，它只在输入是连续数字的情况下工作。

如果开关中的分支数非常大，编译器可以对开关的值进行二进制搜索之类的操作，这(在我看来)将是一种更有用的优化，因为它在某些情况下会显著提高性能，与开关一样通用，并且不会导致生成的代码更大。但要看到这一点，您的测试代码需要更多的分支来查看任何差异。

要回答您的特定问题：

Clang生成了一个如下所示的：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

test_switch(char): # @test_switch(char)
movl %edi, %eax
cmpl $19, %edi
jbe .LBB0_1
retq
.LBB0_1:
jmpq *.LJTI0_0(,%rax,8)
jmp void call<0u>() # TAILCALL
jmp void call<1u>() # TAILCALL
jmp void call<2u>() # TAILCALL
jmp void call<3u>() # TAILCALL
jmp void call<4u>() # TAILCALL
jmp void call<5u>() # TAILCALL
jmp void call<6u>() # TAILCALL
jmp void call<7u>() # TAILCALL
jmp void call<8u>() # TAILCALL
jmp void call<9u>() # TAILCALL
jmp void call<10u>() # TAILCALL
jmp void call<11u>() # TAILCALL
jmp void call<12u>() # TAILCALL
jmp void call<13u>() # TAILCALL
jmp void call<14u>() # TAILCALL
jmp void call<15u>() # TAILCALL
jmp void call<16u>() # TAILCALL
jmp void call<17u>() # TAILCALL
jmp void call<18u>() # TAILCALL
jmp void call<19u>() # TAILCALL
.LJTI0_0:
.quad .LBB0_2
.quad .LBB0_3
.quad .LBB0_4
.quad .LBB0_5
.quad .LBB0_6
.quad .LBB0_7
.quad .LBB0_8
.quad .LBB0_9
.quad .LBB0_10
.quad .LBB0_11
.quad .LBB0_12
.quad .LBB0_13
.quad .LBB0_14
.quad .LBB0_15
.quad .LBB0_16
.quad .LBB0_17
.quad .LBB0_18
.quad .LBB0_19
.quad .LBB0_20
.quad .LBB0_21

我可以说它没有使用跳转表——4个比较指令清晰可见：

1
2
3
4
5
6
7
8

13FE81C51 cmp qword ptr [rsp+30h],1
13FE81C57 je testSwitch+73h (13FE81C73h)
13FE81C59 cmp qword ptr [rsp+30h],2
13FE81C5F je testSwitch+87h (13FE81C87h)
13FE81C61 cmp qword ptr [rsp+30h],3
13FE81C67 je testSwitch+9Bh (13FE81C9Bh)
13FE81C69 cmp qword ptr [rsp+30h],4
13FE81C6F je testSwitch+0AFh (13FE81CAFh)

基于跳转表的解决方案根本不使用比较。

或者没有足够的分支来导致编译器生成跳转表，或者编译器根本没有生成它们。我不确定是哪一个。

编辑2014：熟悉LLVM优化器的人在其他地方进行了一些讨论，认为跳转表优化在许多情况下都很重要；例如，在所述枚举中存在多个值的枚举和许多针对值的枚举的情况下。也就是说，我支持我在2011年所说的话——我经常看到人们在想，"如果我把它变成一个开关，不管我有多少个案例，它都将是同一时间"——这完全是错误的。即使使用跳转表，您也会得到间接跳转成本，并为每种情况支付表中的条目；在现代硬件上，内存带宽是一个很大的问题。

为可读性编写代码。任何值得一试的编译器都将看到if/else if梯形图，并将其转换为等效的开关，反之亦然(如果这样做更快)。

相关讨论

+1用于实际回答问题，以及获取有用信息。：-)但是，有一个问题：根据我的理解，跳转表使用间接跳转；这是正确的吗？如果是这样的话，这不是因为预取/管道化更困难而通常较慢吗？
@是的，它使用间接跳跃。然而，一个间接跳跃(伴随管道失速)可能少于数百个直接跳跃。：)
我懂了。。。所以我可能需要4个以上的比较，嗯？)有趣！
结果显然很有趣！似乎当有更多的选择时，if更快。有什么想法吗？
@不，很不幸。(我很高兴我加入了那些总是认为if更易读的人的阵营！：)
很少有妙语-"[开关]只在输入可以以某种方式绑定时才起作用""需要在表周围插入某种形式的if测试，以确保输入在表中有效。"还请注意，它只在输入是连续数字运行的特定情况下工作。"：完全可能有一个稀疏填充的表，其中读取潜在指针，只有在执行非空跳转时才执行，否则，如果跳转到默认情况，则switch退出。索伦在读完这个答案后还说了其他几句话。
@托尼：是的，您可以用指向开关主体后的指针填充跳转表中缺失的部分。但是，在这种情况下，代码大小的成本几乎肯定大于if测试。内存是现代CPU的瓶颈，而不是执行时间。
接受，因为这清楚地回答了我问题的大部分，即使它遗漏了一些小部分。谢谢！
"任何值得一试的编译器都将看到if/else if梯形图，并将其转换为等价的开关，反之亦然"——是否支持此断言？编译器可能会假定您的if子句的顺序已经手动调整，以匹配频率和相对性能需求，而作为switch通常被视为公开邀请，以优化编译器选择的内容。很好，再次跳过switch：-)。代码大小取决于大小写/范围-可能更好。最后，一些枚举、位字段和char方案本质上是有效的/有界的&无开销的。
@Tonyd:if the compiler would be suggested that，then there's no reason there wouldn't make the same submission about the order of casestatements in your switch and refuse to reorder there.所说的，编译器通常有在源印或简介中引导的优化工具来告诉优化器，你认为一个例子比在源代码顺序上重新设置更可取。当然，有很多场景，在那里输入可以结束。但这些案件不太常见。我不想说"跳桌子是无用的"——我想说"跳桌子不是你用switch得到的魔法子弹"
@Tonyd：((note that ennums are not典型的情况下，编译器在C和C++++++++中的缺陷导致输入无法关闭的情况下只是一个别名，to EDOCX1；)
@Billyoneal：For C++，that starts from C++11-be for e the underlying type was unspecified but required to be large enough to cover 0 through to the number formed by taking the largest enumeration and turning all the less-significant bits on(E.g.0xd->0xf)-bit different when there negative enumerations and I can remember我的头即使是C+11，我也不确定是否知道底层的类型是一种EDOCX1[…]2[…]要求在"老范围"之外确定行为。有兴趣的问题
@Billyoneal：in C++11，for an enum without a fixed underlying type"the values of the enumeration are the values in the range bmin to BMAX"，and per 5.2.9/10 when setting it to anything else"the resulting value is unspecified(and might not be in that range)"，so only if an implementation happens to keep it in the range(with bits).保持它们<=BMAX>然后，积分价值将在没有EDOCX1采取任何行动的情况下受到约束。
@Tonyd：I know it was a few years but note that clang generates the same code for the switch vs the if：goo.gl/vsi2af

关于你的问题：

1.在x86或x64中，基本跳转表是什么样子的？

跳转表是存储指向类似数组结构中标签的指针的内存地址。下面的示例将帮助您了解跳转表的外观

1
2
3
4

00B14538 D8 09 AB 00 D8 09 AB 00 D8 09 AB 00 D8 09 AB 00 ?.?.?.?.?.?.?.?.
00B14548 D8 09 AB 00 D8 09 AB 00 D8 09 AB 00 00 00 00 00 ?.?.?.?.?.?.....
00B14558 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
00B14568 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................

enter image description here

其中00B14538是跳转表的指针，d8 09 ab 00等值表示标签指针。

2.此代码是否使用跳转表？不，在这种情况下。

3.为什么本例中没有性能差异？

没有性能差异，因为两种情况下的指令看起来相同，没有跳转表。

4.是否存在性能差异显著的情况？

如果您有非常长的if检查序列，那么在这种情况下，使用跳转表可以降低性能命中，但这会带来内存成本。

座右铭：编译器足够聪明处理这种情况：)

相关讨论

编译器可以自由地将switch语句编译为等同于if语句的代码，或者创建跳转表。根据编译器选项中指定的内容，它可能会根据执行速度最快的代码或生成最小的代码来选择一个或另一个，所以最坏的情况是，它的速度与if语句的速度相同

我相信编译器会做最好的选择，并专注于什么使代码最可读。

如果事例数变得非常大，跳转表将比一系列if快得多。但是，如果值之间的步骤非常大，则跳转表可能会变大，编译器可能会选择不生成跳转表。

相关讨论

您如何知道您的计算机在切换测试循环期间没有执行与测试无关的任务，在if测试循环期间执行的任务更少？您的测试结果不显示以下内容：

差别很小

只有一个结果，而不是一系列结果

案件太少了

我的结果是：

我补充说：

1 2	printf("counter: %u ", counter);

最后，这样它就不会优化循环，因为在您的示例中从未使用过计数器，所以编译器为什么要执行循环？立即，即使有了这样一个微观基准，这种转变也总是会取得胜利。

代码的另一个问题是：

1	switch (counter % 4 + 1)

在你的开关回路中，与

1	const size_t c = counter % 4 + 1;

在你的if循环中。如果你能解决这个问题，那就大不一样了。我相信，将语句放入switch语句会激发编译器将值直接发送到CPU寄存器中，而不是先将其放入堆栈中。因此，这有利于switch语句，而不是平衡测试。

哦，我认为你也应该在测试之间重置计数器。实际上，您可能应该使用某种随机数，而不是+1、+2、+3等，因为它可能会优化其中的一些内容。例如，随机数是指基于当前时间的数字。否则，编译器可以将这两个函数都转换成一个长的数学运算，甚至不需要任何循环。

我对Ryan的代码进行了足够的修改，以确保编译器无法在代码运行之前解决问题：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89

#include <stdlib.h>
#include <stdio.h>
#include <time.h>

#define MAX_COUNT (1 << 26)
size_t counter = 0;

long long testSwitch()
{
clock_t start = clock();
size_t i;
for (i = 0; i < MAX_COUNT; i++)
{
const size_t c = rand() % 20 + 1;

switch (c)
{
case 1: counter += 20; break;
case 2: counter += 33; break;
case 3: counter += 62; break;
case 4: counter += 15; break;
case 5: counter += 416; break;
case 6: counter += 3545; break;
case 7: counter += 23; break;
case 8: counter += 81; break;
case 9: counter += 256; break;
case 10: counter += 15865; break;
case 11: counter += 3234; break;
case 12: counter += 22345; break;
case 13: counter += 1242; break;
case 14: counter += 12341; break;
case 15: counter += 41; break;
case 16: counter += 34321; break;
case 17: counter += 232; break;
case 18: counter += 144231; break;
case 19: counter += 32; break;
case 20: counter += 1231; break;
}
}
return 1000 * (long long)(clock() - start) / CLOCKS_PER_SEC;
}

long long testIf()
{
clock_t start = clock();
size_t i;
for (i = 0; i < MAX_COUNT; i++)
{
const size_t c = rand() % 20 + 1;
if (c == 1) { counter += 20; }
else if (c == 2) { counter += 33; }
else if (c == 3) { counter += 62; }
else if (c == 4) { counter += 15; }
else if (c == 5) { counter += 416; }
else if (c == 6) { counter += 3545; }
else if (c == 7) { counter += 23; }
else if (c == 8) { counter += 81; }
else if (c == 9) { counter += 256; }
else if (c == 10) { counter += 15865; }
else if (c == 11) { counter += 3234; }
else if (c == 12) { counter += 22345; }
else if (c == 13) { counter += 1242; }
else if (c == 14) { counter += 12341; }
else if (c == 15) { counter += 41; }
else if (c == 16) { counter += 34321; }
else if (c == 17) { counter += 232; }
else if (c == 18) { counter += 144231; }
else if (c == 19) { counter += 32; }
else if (c == 20) { counter += 1231; }
}
return 1000 * (long long)(clock() - start) / CLOCKS_PER_SEC;
}

int main()
{
srand(time(NULL));
printf("Starting...
");
printf("Switch statement: %lld ms
", testSwitch()); fflush(stdout);
printf("counter: %d
", counter);
counter = 0;
srand(time(NULL));
printf("If statement: %lld ms
", testIf()); fflush(stdout);
printf("counter: %d
", counter);
}

开关：3740如果：3980

(多次尝试的结果相似)

我还将cases/ifs的数量减少到了5个，切换功能仍然获胜。

相关讨论

IDK，我不能确定，你的结果有什么不同吗？IDK，I can't prove i t；do you get different results？
我看着你的结果
+1:Benchmarking is difficult，and you really can't draw any conclusions from a small time difference on a single run on a normal computer.你可以尝试运行大量的测试，并对结果进行一些统计。或计数处理器循环在模拟器中控制执行。
你究竟在哪里添加了print？我把它添加到整个程序的末尾，看不出有什么不同。我也不明白"问题"是什么思考"非常大的区别"是什么？
@Bobturbo：And more importantly：what was your timings？
我在你所做的同一个地方添加了印刷品。如果你看不到任何东西，它可能是一个不同的编译器。我还确定，在开关之前，这是申报的。我不知道为什么会发生这样的事情，但它有很大的不同。I also increased switches/if to 10，and the results were：45ms for switch，45983493ms or so for if.
使用Linux和GCC
@Bobturbo：45983493 is over 12 hours.这是典型的吗？
@Bobtrubo：看着：ideone.com/p6ybm.这表明了理想的运行方式，即使你的改变，如果块也很快。
@Bobturbo：你的算术过于模糊了，这是一个古典的错误(我也犯了一个时间的错误)。双重检查你的密码。
不，这是一个典型，因为我不可能在正确的数字里被划上一个标签。
事实上，也许我已经超越了输出。我没有检查密码的那一部分
伟大的，现在我必须再去做一次。
@Ryan Gross：我对你的代码也有同样的结果，但我会做一些改变，以确保它是真的测试开关回到干燥中
问题是你的时间是随机的为了在每一次测试之前对不同进行一次真正的测试，您需要用EDOCX1&6初始化随机数生成器。另外，我不确定这是一个与rand的合理测试。至少，同一种子，尽管它的头顶上应该是在运行之间。
1。生成的值不相关。2。如果我引入了一个随机变量，这意味着它实际上仍然是完全有效的，因为随机性会在多个测试中取消。但由于每次测试都会产生相同的结果(开关获胜)，所以您的评论是不正确的。
使用rand并不理想，因为随机数生成器并不是真正随机的，但它足以愚弄编译器。
rand()应该有一个随机排列，所以%的性能相当稳定。这可以通过使cases/ifs的功率为2来改进，这将使%由于优化而更可能成为一个持续的操作。不管怎样，随机性都会被取消(如果有的话)。事实上，应该只删除百分比，并用2个IFS和案例的幂和幂替换它。但我不必担心，这会导致同样的事情——除非编译器能够将它优化为其他的东西，例如，在运行时之前就知道这些值，否则切换比if快。
@bobturbo：生成的值是相关的，因为它们控制着开关的哪个分支，或者如果/否则将采用梯形图。较低的结果(来自mod操作)将使发生的任何设置都能使较低的mod看起来更好，因为执行的比较更少。您发布的值非常接近，我怀疑编译器正在进行巨大的(类似跳跃表的)转换。(我的猜测是它确实做了二进制搜索优化，但这对只有20个案例没有太大帮助)。如果你想对比较进行基准测试，你需要比较相同的东西。：)
@BillyOneal，我认为每个案件的命中率都会接近，甚至不会影响结果。不管怎样，正如我所说，每次开关成功后，测试都会反复进行。如果两个都一样快，这将有接近1/无穷的偶然发生的机会。
@鲍勃：你没有对这些测试进行任何统计分析……我看不出任何一致性。对于小的百分比，您显示出6%的差异。如果差异更大，我可以假设切换总是更快，但由于差异太小，我怀疑现实世界中的情况几乎没有差别。
@鲍勃：迟到总比不迟到好？正如比利之前指出的那样，你已经在循环中得到了rand()。你不应该在开始计时之前将随机数生成一个数组吗？实际上，您将"EDOCX1的成本(1)＋EDOCX1的成本(2)’"与"EDOCX1的成本(1)＋EDOCX1的成本(4)’"进行比较。如果rand比if或switch花费的时间要长得多，则可能会严重稀释比较结果。

一个好的优化编译器(如msvc)可以生成：

一个简单的跳台，如果箱子排列在一个很长的范围内

一个稀疏(两级)跳转表，如果有许多间隙

如果事例数很小或值很小，则为一系列国际单项体育联合会不紧密地联系在一起

如果案例代表多组间距很近的范围。

简而言之，如果开关看起来比一系列IFS慢，编译器可能只是将其转换为一个。它可能不仅仅是每种情况的一个比较序列，而是一个二进制搜索树。请参阅此处以获取示例。

相关讨论

我会回答2)并做一些一般性的评论。2)不，您发布的程序集代码中没有跳转表。跳转表是一个包含跳转目的地的表，以及一个或两个直接从表跳转到索引位置的指令。当有许多可能的交换目的地时，跳转表会更有意义。也许乐观者知道简单的if-else逻辑更快，除非目的地的数量大于某个阈值。用"说出20个可能性"而不是"4"来再次尝试您的示例。

相关讨论

我很感兴趣，并查看了可以对您的示例进行哪些更改，以使它更快地运行switch语句。

如果您得到40个if语句，并添加一个0大小写，那么if块的运行速度将比等效的switch语句慢。我这里有结果：https://www.ideone.com/kzecz。

删除0案例的效果可以在这里看到：https://www.ideone.com/lfnrx。

相关讨论

下面是旧的(现在很难找到)bench++基准测试的一些结果：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

Test Name: F000003 Class Name: Style
CPU Time: 0.781 nanoseconds plus or minus 0.0715
Wall/CPU: 1.00 ratio. Iteration Count: 1677721600
Test Description:
Time to test a global using a 2-way if/else if statement
compare this test with F000004

Test Name: F000004 Class Name: Style
CPU Time: 1.53 nanoseconds plus or minus 0.0767
Wall/CPU: 1.00 ratio. Iteration Count: 1677721600
Test Description:
Time to test a global using a 2-way switch statement
compare this test with F000003

Test Name: F000005 Class Name: Style
CPU Time: 7.70 nanoseconds plus or minus 0.385
Wall/CPU: 1.00 ratio. Iteration Count: 1677721600
Test Description:
Time to test a global using a 10-way if/else if statement
compare this test with F000006

Test Name: F000006 Class Name: Style
CPU Time: 2.00 nanoseconds plus or minus 0.0999
Wall/CPU: 1.00 ratio. Iteration Count: 1677721600
Test Description:
Time to test a global using a 10-way switch statement
compare this test with F000005

Test Name: F000007 Class Name: Style
CPU Time: 3.41 nanoseconds plus or minus 0.171
Wall/CPU: 1.00 ratio. Iteration Count: 1677721600
Test Description:
Time to test a global using a 10-way sparse switch statement
compare this test with F000005 and F000006

从中我们可以看到(在这台机器上，使用这个编译器——vc++9.0x64)，每个if测试大约需要0.7纳秒。随着测试次数的增加，时间刻度几乎成线性。

使用switch语句，只要值密集，2路测试和10路测试的速度几乎没有差别。稀疏值10路测试的时间约为密集值10路测试的1.6倍，但即使是稀疏值，仍然比10路if/else if的速度快两倍。

底线：仅使用4路测试并不能真正显示出switch与if与else的性能。如果你看一下这段代码中的数字，很容易得出这样一个事实：对于4路测试，我们希望这两个测试产生非常相似的结果(对于if／else／2.8纳秒，对于switch／2.0纳秒)。

相关讨论

请注意，当一个开关没有编译成跳转表时，您可以经常写if比开关更有效…

(1)如果案例有一个顺序，而不是所有n的最坏案例测试，那么你可以编写if's来测试if在上半部分或下半部分，然后在每半部分中，使用二进制搜索样式…导致最坏的情况是logn而不是n

(2)如果某些案例/群体比其他案例频繁得多，那么设计您的国际单项体育联合会，首先隔离这些案例，可以加快平均时间通过

相关讨论

Not sure why one is faster and one is slower, though.

这其实不难解释…如果你记得预测失误的分支比正确预测的分支贵几十到几百倍。

在% 20版本中，第一个case/if总是命中的。现代CPU"学习"通常采用哪些分支，而不是哪些分支，因此它们可以很容易地预测该分支在几乎每次循环迭代中的行为。这就解释了为什么"if"版本会运行；它从不需要执行第一个测试之后的任何操作，并且它(正确地)预测了该测试在大多数迭代中的结果。显然，"switch"的实现方式略有不同——甚至可能是一个跳转表，由于计算出的分支，它可能会很慢。

在% 21版本中，分支基本上是随机的。因此，它们中的许多不仅执行每次迭代，CPU也无法猜测它们将朝哪个方向发展。在这种情况下，跳转表(或其他"切换"优化)可能会有所帮助。

很难预测一段代码如何使用现代编译器和CPU来执行，每一代代码都会变得更加困难。最好的建议是"不要费心去尝试；总是做个侧面的人"。这种建议会越来越好，而那些能忽视它的人每年都会越来越少。

所有这些都是说，我上面的解释很大程度上是一种猜测。-)

相关讨论

不，这些是if-then-jump-else-if-then-jump-else…一个跳转表将有一个地址表，或者使用哈希或类似的东西。

快或慢是主观的。例如，您可以让case 1是最后一件事，而不是第一件事，如果您的测试程序或现实世界程序使用case 1，那么大多数情况下，代码在这个实现中会变慢。因此，只需重新安排案例列表，根据实现情况，就可以产生很大的不同。

如果您使用的是0-3而不是1-4，那么编译器可能使用了一个跳转表，编译器应该已经计算出删除+1了。可能是因为物品数量太少。例如，如果您将其设置为0-15或0-31，它可能使用了一个表来实现它，或者使用了其他一些快捷方式。只要编译器满足源代码的功能，它就可以自由选择如何实现这些东西。这就涉及到编译器的差异、版本的差异和优化的差异。如果你想要一个跳转表，做一个跳转表，如果你想要一个if-then-else树，做一个if-then-else树。如果要让编译器决定，请使用switch/case语句。

一个也没有。在大多数特定的情况下，当您进入汇编程序并进行实际的性能度量时，您的问题仅仅是一个错误的问题。对于给定的例子来说，你的想法显然太短了，因为

1	counter += (4 - counter % 4);

在我看来，这是您应该使用的正确增量表达式。