关于C#：具有常数整数除数的高效浮点除法

Efficient floating-point division with constant integer divisors

最近的一个问题，编译器是否可以用浮点乘法替换浮点除法，启发我问这个问题。

在严格要求下，代码转换后的结果应与实际的除法运算完全一致。对于二进制的ieee-754算法来说，这对于二次幂的除数来说是可能的，这一点是微不足道的。只要对方除数的倒数乘以除数的倒数可表示除数的结果与除数相同。例如，用0.5进行乘法可以用2.0代替除法。

然后，我们会想知道其他除数这样的替换是如何工作的，假设我们允许任何简短的指令序列来替换除数，但运行速度要快得多，同时提供完全相同的结果。特别是除了纯乘法之外，还允许融合乘法加法运算。在评论中，我指出了以下相关文件：

尼古拉斯·布里斯巴雷、让·米歇尔·穆勒和索拉巴·库马尔·雷纳。当除数提前已知时，加速正确舍入浮点除法。《IEEE计算机汇刊》，第53卷，第8期，2004年8月，第1069-1072页。

论文作者所倡导的技术将除数y的倒数预计算为标准化的头尾对z_{h_{：z_{l_{as follows:z_{h_{=1/y，z_{l_{=fma(-y，z_{h_{，1)/y。稍后，除数q=x/y随后计算为q=fma(z_{h_{，x，z_{l_{x)。本文推导了除数y必须满足的各种条件，才能使该算法工作。正如人们所观察到的，当头部和尾部的符号不同时，该算法存在无穷大和零的问题。更重要的是，由于计算商尾，z_{l_{*x，它将无法为非常小的股息x提供正确的结果。}}}}}}}}}}}}}}}}

本文还简要介绍了一种基于fma的划分算法，该算法是由PeterMarkstein在IBM时首创的。相关参考是：

马克斯坦。IBM RISC System/6000处理器上基本函数的计算。IBM研究与开发杂志，第34卷，第1期，1990年1月，第111-119页

在Markstein的算法中，首先计算一个倒数rc，从中形成一个初始商q=x*rc。然后，用fma作为r=fma(-y，q，x)精确地计算除法的剩余部分，最后用q=fma(r，rc，q)计算改进的、更精确的商。

该算法还存在0或无穷大的x问题(通过适当的条件执行很容易解决)，但使用IEEE-754单精度float数据进行的详尽测试表明，它在所有可能的除数x中，为这些小整数中的许多除数y提供正确的商。此C代码实现它：

1
2
3
4
5
6
7
8
9

/* precompute reciprocal */
rc = 1.0f / y;

/* compute quotient q=x/y */
q = x * rc;
if ((x != 0) && (!isinf(x))) {
r = fmaf (-y, q, x);
q = fmaf (r, rc, q);
}

在大多数处理器体系结构中，这应该转换为无分支的指令序列，使用预测、条件移动或选择类型指令。举一个具体的例子：对于3.0f的除法，CUDA 7.5的nvcc编译器为开普勒类GPU生成以下机器代码：

1
2
3
4
5
6
7
8

LDG.E R5, [R2]; // load x
FSETP.NEU.AND P0, PT, |R5|, +INF , PT; // pred0 = fabsf(x) != INF
FMUL32I R2, R5, 0.3333333432674408; // q = x * (1.0f/3.0f)
FSETP.NEU.AND P0, PT, R5, RZ, P0; // pred0 = (x != 0.0f) && (fabsf(x) != INF)
FMA R5, R2, -3, R5; // r = fmaf (q, -3.0f, x);
MOV R4, R2 // q
@P0 FFMA R4, R5, c[0x2][0x0], R2; // if (pred0) q = fmaf (r, (1.0f/3.0f), q)
ST.E [R6], R4; // store q

在我的实验中，我编写了下面显示的微小的C测试程序，该程序按递增的顺序逐步通过整数除数，并针对每个整数除数详尽地测试上述代码序列与正确的除法。它打印了通过这个详尽测试的除数列表。部分输出如下：

1	PASS: 1, 2, 3, 4, 5, 7, 8, 9, 11, 13, 15, 16, 17, 19, 21, 23, 25, 27, 29, 31, 32, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 64, 65, 67, 69,

为了将替换算法作为一种优化合并到编译器中，上述代码转换可以安全地应用到的除数白名单是不切实际的。到目前为止，该程序的输出(大约每分钟一个结果)表明，对于那些奇数整数或二次幂的除数y，快速代码在x的所有可能编码中都能正确工作。当然是轶事证据，而不是证据。

什么样的数学条件可以决定a-先验，将除法转换成上述代码序列是否安全？答案可以假设所有浮点运算都是在默认的舍入模式"舍入到最近或偶数"下执行的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45

#include <stdlib.h>
#include <stdio.h>
#include <math.h>

int main (void)
{
float r, q, x, y, rc;
volatile union {
float f;
unsigned int i;
} arg, res, ref;
int err;

y = 1.0f;
printf ("PASS:");
while (1) {
/* precompute reciprocal */
rc = 1.0f / y;

arg.i = 0x80000000;
err = 0;
do {
/* do the division, fast */
x = arg.f;
q = x * rc;
if ((x != 0) && (!isinf(x))) {
r = fmaf (-y, q, x);
q = fmaf (r, rc, q);
}
res.f = q;
/* compute the reference, slowly */
ref.f = x / y;

if (res.i != ref.i) {
err = 1;
break;
}
arg.i--;
} while (arg.i != 0x80000000);

if (!err) printf ("%g,", y);
y += 1.0f;
}
return EXIT_SUCCESS;
}

相关讨论

不知道为什么这个问题被贴上了"太宽泛"的标签。如果投反对票的人能解释他们的理由，我将不胜感激。我正试图确定什么时候用一个常量整型除数替换浮点除数是"安全的"，它是一个非常具体的代码序列，如问题所示。从我的测试结果中得到的轶事证据似乎表明它适用于奇数整数，以及那些二次幂的整数。但要将其作为通用优化，需要有可靠的数学推理，整数是"安全的"；我没有数学技能
我希望这个问题的答案能列出几个必须加在除数上的条件，以及最多一页的理由或推导条件，对于SO格式，我不会认为这些条件"太长"。我之所以没有在数学stackexchange上问这个问题，是因为浮点问题在那里几乎没有任何吸引力，而stackoverflow上有许多数学家，这个问题最肯定与编程有关，因此imho适合这里的[math]标记。
这是否意味着你可以用上面的算法除以3而不是6或12？在这种情况下，有一个明显的扩展：用2的幂把除法分开，它只是再乘以一次。
好的，是的。这一事实使我困惑，我也有同样的想法，把这种分裂分成两个阶段。我还没有尝试过，但我认为这可能不起作用，因为当结果是非正规的时候，被二除并不总是准确的。
@很好，我试过了，事情和我想的差不多，如果结果是非正规的，那么一个是二的幂的除法的串联可能会失败。示例：x = 0x1.7ffffep-124。计算x/3/2给出了0x1.000000p-126，但真正的商是x/6 = 0x1.fffffcp-127。
当然，糟糕的非正规化！没关系，这是一个内存不足的案例comments.gmane.org/gmane.comp.lang.smalltalk.vwnc/26468
这似乎更适合计算机科学的StackExchange，不是吗？
@Claudiu基于对计算机科学StackExchange的通读，搜索相关的标签，并检查该站点上与浮点运算相关的选定的Q&A线程，我对有意义的答案(甚至有用的评论)的期望非常低。由于交叉发帖在SO/SE世界中似乎非常不受欢迎，所以我不能简单地执行相关的实验来找出其中的一种方法。
@克劳迪乌，我不认为有任何一个浮点专家会在CS堆栈交换上闲逛，所以不是真的，不是的，但是这里有很多经常投稿的人(包括Njuffa本人)都很有知识。
@Njuffa：如果你有一个支持AVx2/FMA3的CPU，你可以将速度提高八倍(每个真正的核心)。在这个特别的i5-4200u核心笔记本电脑上，我可以在不到一分钟(55s)的时间内，用一个核心检查八个不同除数的所有正法线和次法线。它有两个真正的核心，我刚刚检查过：我的程序可以在这台机器上每55秒检查16个除数，或者每除数检查3.5秒。想要密码吗？
我知道，但不幸的是，我有一个旧一代的Intel CPU，并坚持用我自己的FMA仿真作为备份来模拟FMA(Intel编译器)。没有正确性问题，但速度相当慢。我也可以使用我的GPU(很多单精度的基于FMA的触发器)，但是它在@home上又被折页占用了四天左右。
您可以看看数字信号处理应用程序的有效浮点除法。
@罗伊谢谢你的指点。老实说，乍一看，我没有看到任何关于这篇文章的方法特别新颖的地方，但我会仔细看一看。
对于参与方来说非常晚，但请注意，纸张假定无边界指数，因此忽略下溢/溢出和特殊值。(黑板M定义见第3节)

这个问题要求找到一种方法来确定常数Y的值，这样就可以安全地将x / Y转换为使用fma对x的所有可能值进行更便宜的计算。另一种方法是使用静态分析来确定x可以取的值的过度近似，这样，一般不健全的转换就可以应用于转换代码不同于原始除法的值不会发生的知识中。好的。

使用一组很好地适应浮点计算问题的浮点值的表示法，甚至从函数开始的前向分析也可以产生有用的信息。例如：好的。

1
2
3
4
5

float f(float z) {
float x = 1.0f + z;
float r = x / Y;
return r;
}

假设默认的四舍五入到最近的模式(*)，在上述函数中，x只能是NaN(如果输入是NaN)，+0.0F，或大于2-24的数值，但不能是-0.0F或任何小于2-24的数值。这证明了将常数Y的许多值转换为问题中所示的两种形式之一是正确的。好的。

(*)假设没有这些假设，许多优化是不可能的，并且C编译器已经做出了这些假设，除非程序显式地使用#pragma STDC FENV_ACCESS ON。好的。

预测上述x的信息的前向静态分析可以基于一组浮点值的表示，表达式可以作为一个元组：好的。

一组可能的NaN值的表示(由于NaN的行为未指定，因此选择仅使用布尔值，其中true表示可以存在一些NaN，false表示不存在NaN)。
四个布尔标志分别指示存在+inf、-inf、+0.0、-0.0、
负有限浮点值的包含区间，以及
正有限浮点值的包含区间。

为了遵循这种方法，静态分析器必须理解C程序中可能发生的所有浮点操作。举例来说，在分析的代码中，用于处理+的值u和v之间的相加可以实现为：好的。

如果其中一个操作数中存在NaN，或者操作数可以是相反符号的无穷大，则结果中存在NaN。
如果0不能是u值和v值相加的结果，请使用标准间隔算法。结果的上界为u中的最大值和v中的最大值的四舍五入到最近的加法，因此这些界应使用四舍五入到最近的方法计算。
如果0是u的正值和v的负值相加的结果，那么让m是u中最小的正值，这样-m在v中出现。
- 如果suc(m)存在于u中，那么这对值将suc(m)-m贡献给结果的正值。
- 如果-suc(m)存在于v中，则这对值将负值m-suc(m)贡献给结果的负值。
- 如果pred(m)存在于u中，则这对值将负值pred(m)-m贡献给结果的负值。
- 如果v中存在-pred(m)，则这对值将m-pred(m)的值贡献给结果的正值。
如果0是u的负值和v的正值相加的结果，则执行相同的操作。

承认：以上借鉴了布鲁诺?马尔(Bruno Marre)和克劳德?米歇尔(Claude Michel)提出的"改进浮点加减约束"的观点。好的。

示例：以下函数f的编译：好的。

1
2
3
4
5
6
7
8

float f(float z, float t) {
float x = 1.0f + z;
if (x + t == 0.0f) {
float r = x / 6.0f;
return r;
}
return 0.0f;
}

问题中的方法拒绝将函数f中的除法转换为替代形式，因为6不是除法可以无条件转换的值之一。相反，我建议从函数的开始应用一个简单的值分析，在这种情况下，它确定x是一个有限的浮点，或者是+0.0f或者至少是2-24个数量级，并且使用这个信息来应用brisebarre等人的转换，相信x * C2的知识。不下溢。好的。

为了明确起见，我建议使用下面的算法来决定是否将除法转换为更简单的方法：好的。

Y是不是可以根据其算法使用Brisebarre等人的方法转换的值之一？

方法中的c1和c2是否具有相同的符号，或者是否可以排除股息无穷大的可能性？

方法中的c1和c2是否有相同的符号，或者x只能取0的两个表示中的一个？如果c1和c2有不同的符号，并且x只能是一个零的表示，请记住使用基于fma的计算的符号(**)，使其在x为零时产生正确的零。

股息的规模是否能够保证足够大，以排除x * C2资金下溢的可能性？

如果四个问题的答案是"是"，那么除法可以在编译函数的上下文中转换为乘法和fma。上述静态分析用于回答问题2、3。4。好的。

(**)"摆弄符号"是指当需要使用-fma(-c1，x，(-c2)*x)代替fma(c1，x，c2*x)，以便在x只能是两个有符号零中的一个时使结果正确出现。好的。好啊。

相关讨论

我很难理解答案与问题的关系，现在担心我可能误解了问题的实际方面：当遇到浮点除法x / fpconst，其中fpconst是整数，x可以接受float中的任何编码，如何确定替换代码是否传递基于fpconst的划分结果是否相同？是/否结果。在上面的通用算法中，这可能是特殊情况，但我不知道在哪里。我不明白"m在y中存在"的意思：y似乎不是一个区间？
通过对float的详尽测试(以i e e e-754 binary32的形式实现)，我知道x/3.0f可以替换为基于fma的序列，对x的所有可能值(即，结果是真的)提供与除法相同的结果。对于x/6.0f，这是不可能的，因为当x的大小非常小(即结果是错误的)时，替换不能返回正确的结果。如何根据答案中的过程得出这些相同的结果？该程序是否比详尽的测试更快(对于float)？
@Njuffa是的，这个答案没有提供常数Y的充分条件来用替代形式替换x / Y，例如在编译器上下文中。这个答案指出，相反，在编译器的上下文中，计算关于x值的信息可能更简单、更有效，这些值是用来获取的，以便更频繁、更简单地确定转换是否正确。如果你认为答案太远，我可以删除它，但是我把它贴出来是因为我认为它解决了同样的原始问题：编译x / Y。
我不是建议你删除答案。仅仅因为我个人理解上有困难，并不意味着其他人无法理解。我从你的回答中得到了相反的观点：对于给定的除数fpconst，确定一组浮点值x，对于这些浮点值，基于fma的代码向除法传递相同的结果。我可以看到，如果x的范围信息已经存在，那么从这个方向的方法是多么有利。从与编译器人员的交谈中我知道，对于浮点型，没有范围信息，x可以是任何float编码。
@Njuffa确切地说，这就是为什么我最初提出的答案中，最主要的部分是如何实施价值分析，有效地回答有关股息价值的问题，当试图解释简化部门的机会时。
@我希望上述的浮点值分析将在三个月后实施。我会给你写信的。

让我第三次重新启动。我们正试图加速好的。

q = x / y

其中y为整数常数，q、x和y均为ieee 754-2008二进制32浮点值。下面，fmaf(a,b,c)表示使用二进制32值的融合乘法加a * b + c。好的。

简单的算法是通过预先计算的倒数，好的。

1	C = 1.0f / y

所以在运行时(更快)的乘法就足够了：好的。

q = x * C

Brisebarre-Muller Raina加速度使用两个预先计算的常量，好的。

1 2	zh = 1.0f / y zl = -fmaf(zh, y, -1.0f) / y

因此，在运行时，一个乘法和一个融合乘法加法就足够了：好的。

1	q = fmaf(x, zh, x * zl)

markstein算法将naive方法与两个融合乘法结合起来，如果naive方法通过预先计算在最不重要的位置在1个单位内生成结果，则会得到正确的结果。好的。

1 2	C1 = 1.0f / y C2 = -y

这样除数就可以用好的。

1
2
3

t1 = x * C1
t2 = fmaf(C1, t1, x)
q = fmaf(C2, t2, t1)

这种幼稚的方法适用于两个y的所有权力，但除此之外，它是相当糟糕的。例如，对于除数7、14、15、28和30，它会在所有可能的x的一半以上产生错误的结果。好的。

Brisebarre-Muller-Raina方法在几乎所有两个y的非功率方面都同样失败，但产生错误结果的x要少得多(不到所有可能x的一半，取决于y)。好的。

Brisebarre-Muller-Raina的文章表明，这种简单方法的最大误差为±1.5 ulps。好的。

对于两个y的幂和奇数y的幂，markstein方法得到正确的结果。(我没有为Markstein方法找到一个失败的奇数整除数。)好的。

对于Markstein方法，我分析了除数1-19700(这里是原始数据)。好的。

绘制失败案例的数量(横轴中的除数，该除数的markstein方法失败的x的值的数量)，我们可以看到一个简单的模式发生：好的。

Markstein失败案例http://www.nominal-animal.net/answers/markstein.png好的。

注意，这些图的水平轴和垂直轴都是对数。奇数除数没有点，因为该方法为我测试过的所有奇数除数生成正确的结果。好的。

如果我们将x轴更改为除数器的位反转(二进制数字的倒序，即0B111101101→0B110110111，数据)，我们将得到一个非常清晰的模式：Markstein失败案例，位反向除数http://www.nominal-animal.net/answers/markstein-failures.png好的。

如果我们通过点集的中心画一条直线，我们得到曲线4194304/x。(请记住，绘图只考虑一半可能的浮点，因此在考虑所有可能的浮点时，将其加倍。)8388608/x和2097152/x完全包围了整个错误模式。好的。

因此，如果我们使用rev(y)来计算除数y的比特倒数，那么8388608/rev(y)是一个很好的一阶近似数(在所有可能的浮点数中)，其中markstein方法会对两个除数y的偶数非幂产生不正确的结果。(或者，16777216/rev(x)表示上限。)好的。

添加了2016-02-28：我发现了一个使用markstein方法的错误案例数量的近似值，给定任何整数(binary32)除数。这里是伪代码：好的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

function markstein_failure_estimate(divisor):
if (divisor is zero)
return no estimate
if (divisor is not an integer)
return no estimate

if (divisor is negative)
negate divisor

# Consider, for avoiding underflow cases,
if (divisor is very large, say 1e+30 or larger)
return no estimate - do as division

while (divisor > 16777216)
divisor = divisor / 2

if (divisor is a power of two)
return 0

if (divisor is odd)
return 0

while (divisor is not odd)
divisor = divisor / 2

# Use return (1 + 83833608 / divisor) / 2
# if only nonnegative finite float divisors are counted!
return 1 + 8388608 / divisor

在我测试过的Markstein失效案例中，这会产生一个正确的误差估计值，误差估计值在±1以内(但我还没有充分测试过大于8388608的除数)。最后的除法应该是这样的，它不会报告错误的零，但我不能保证(现在)。它没有考虑到非常大的除数(比如0x1p100，或者1e+30，以及更大的数量级)，这些除数有下溢问题——无论如何，我肯定会将这些除数排除在加速之外。好的。

在初步测试中，估计值似乎异常准确。我没有画出一个图来比较1到20000除数的估计值和实际误差，因为这些点在图中完全一致。(在这个范围内，估计值是精确的，或者太大。)从本质上讲，估计值精确地复制了这个答案中的第一个图。好的。

Markstein方法的失败模式是规则的，非常有趣。该方法适用于两个除数的所有幂和所有奇数整数除数。好的。

对于大于16777216的除数，我始终看到与除数相同的错误，除数除以2的最小幂得到小于16777216的值。例如，0x1.3cdfa4p+23和0x1.3cdfa4p+41、0x1.d8874p+23和0x1.d8874p+32、0x1.cf84f8p+23和0x1.cf84f8p+34、0x1.e4a7fp+23和0x1.e4a7fp+37。(每对中尾数相同，只有两个的力量不同。)好的。

假设我的测试台没有出错，这意味着markstein方法也可以处理大于16777216的除数(但小于，例如，1e+30)，如果除数是这样的，当除以最小的2次幂，得到小于16777216的商，并且商是奇数。好的。好啊。

相关讨论

我现在可能太累了，但我很难理解这意味着什么："大于16777216，这样当除以2的最小幂，商小于16777216，商是奇数。"你能用数学描述一下吗？顺便说一句，我花了两天时间研究了2*24以上的除数，但没能算出一个模式，哪一个有效。请注意，您所说的上述"Brisebarre-Muller-raina"算法是"算法1(乘法除法和两个融合的macs)"，它们将其归因于Markstein(带参考的jibes)。
这是你第三条规则的反例吗？除数isy：对于基于y=33554334 y/2**n=16777167 (y/2**n)&1=1markstein fma的除数，没有给出正确的结果y=0x1.ffff9ep+24 arg=0x1.1f589ap-101 (0d0fac4d) res=0x1.1f58d0p-126 (008fac68) ref=0x1.1f58d2p-126 (008fac69)。
在我的sm gpu上，使用cuda 7.5，我得到：division=0x1.1f589ap-101 / 0x1.ffff9ep+24 = 0x1.1f58d2p-126. Markstein: residual=-0x1.ffff9cp-126 final_quot=0x1.1f58d2p-126。当结果匹配时，markstein序列对这个除数起作用。我很晚才注意到，我无意中遗漏了英特尔编译器的/fp:strict标志，这很可能是导致早期CPU不匹配的原因。不好意思弄混了，会进一步调查的。
/fp:strict没有帮助，问题似乎是对fmaf()的不正确模仿。真倒霉。从来没有遇到过，我可以发誓英特尔的仿真是坚如磐石。显然不是。我自己的fmaf()仿真使这个测试向量通过，但是对于详尽的测试来说太慢了。难怪我找不到一个除数大于2*24的规则，我被错误的fma模拟造成的伪影赶走了。将切换到GPU(硬件FMA)。
估算故障率的位反转计算背后的动机/原因是什么？
@Njuffa：我已经用(希望)正确的名字和术语重写了我的答案，包括一个序言，以确保你和其他读者知道我指的是什么。
你的图表很棒！(将再次投票)。然而，我发现你对Briebarre等人的方法的zl的计算令人惊讶。从直观的角度来说，zl应该是数学倒数1/y的下一个位，在我看来，计算它的方法是用y的一个因子或其他东西。我计算zh和zl的方式是zh = 1.0f / C; zl = 1.0L / C - zh;，因为我有一个编译器，可以给我80位的long double值。(注：我正在阅读《浮点运算手册》第5.5节中对该算法的描述，而不是文章中的描述)
Brisebarre-Muller方法的一个伟大的、免费的扩展描述位于perso.ens lyon.fr/jean-michel.muller/journal_multfmac_final.&zwnj；&8203；pdf
@帕斯卡科克：谢谢你的提醒！是的，zl没有被y除名。卡汉(一个融合了的Mac电脑也加速了一个肮脏的"双倍"的速度……完全不使用roundoff)描述了余数的fma方法；早期的Brisebarre等人的文章明确提到它是获取余数的精确方法。实际上，如果检查除数16777214，通过80位长双精度计算的zl会产生48个错误，但是fma方法zl在所有非负的有限浮点参数中只产生46个错误。
@Pascalgoq：即使这是一个糟糕的代码，您(和其他感兴趣的人)可能希望看看我的验证程序，我用来得出这些结果(用于过滤和位反转，我使用awk)。该程序是公共域/cc0。如果没有别的，它可能会产生额外的想法，或者你可以指出，如果我犯了一些愚蠢的错误。可能有……：)
@名义上非常好的工作。顺便说一句，在我看来(基于我重新建立的测试框架)，除了那些满足"缩小后奇数"测试的因子，还有其他因子>2**24，它们通过Markstein的算法在所有可能的红利中提供正确的结果。你也看到了这个吗，有没有办法描述这些额外的除数？我还在看新的数据，可能在接下来的几天里无法详细研究它。
@Njuffa:8388608和16777216之间的偶数除数的一半只有一个论点(股息)，Markstein失败了(值得特别说明吗？).对这些进行显式搜索，是的：我可以找到一些例子——比如147070706=0x1.c0d664p+23——舍入恰好是正确的，因此Markstein实际上成功地获得了此类除数的所有有限浮动股息！在这种情况下，Markstein也成功地获得了两个更高的幂——0x1.c0d664p+24，0x1.c0d664p+25，…，0x1.c0d664p+125(但不是最大的+126和+127，128或127个情况下失败，可能是由于下溢)。隐马尔可夫模型。
你的循环while (curr.u[0] < 0x7F800000U)根据divisor的值做不同数量的不必要的工作。在检查二进制代码期间，一旦没有下溢或溢出，该二进制代码的结果正好是没有下溢或溢出的任何其他二进制代码的结果的2^k倍(这适用于此处考虑的所有方法：naive、markstein、brisebarre-muller以及ref正确的圆分割)。
@我明白你的意思了。但是，我不知道如何将它合并到矢量化方法中，准确的错误计数对我来说真的很有用。可能更改索引？我认为内存带宽排除了从数组中取出curr：太慢。无论如何，它会变得相当复杂，很快。我不确定这是否值得付出努力，尤其是在我数学水平很差的时候。保持简单也可以验证。
@Njuffa：我增加了一个更准确的markstein失败案例计数估计量(对于给定的除数，markstein会给出一个错误的答案)。在我的测试中(不可否认的是，除数1到20000被验证，其余的被随机抽样)，它产生正确数量的失败案例，在&177；1之内(实际上是-0+1)。

我喜欢@pascal的答案，但是在优化中，拥有一个简单且易于理解的转换子集，而不是一个完美的解决方案通常会更好。

所有当前和常见的历史浮点格式都有一个共同点：二进制尾数。

因此，所有分数都是形式的有理数：

x/2n

这与程序中的常量(以及所有可能的基10分数)形成对比，后者是形式为的有理数：

x/(2n*5m)

因此，一个优化将简单地测试m==0的输入和倒数，因为这些数字是以fp格式精确表示的，用它们进行的操作将产生格式中准确的数字。

因此，例如，在.01到0.99的(十进制2位)范围内，除以或乘以以下数字将得到优化：

1	.25 .50 .75

其他一切都不会。(我想，先测试一下，哈哈)

相关讨论

注意这个问题已经把除数限制为整数，因为我认为解决任意除数的问题太难了。因此，所考虑的除数都可以精确地表示为float(最多2*24)。然而，从经验上讲，我所展示的建议代码中唯一的整数除数是2x+1和2**n的形式，即使这是推测，因为我不能全部测试它们(我让我的测试应用程序运行以生成一个白名单)。
我不希望这个问题被片面的归纳。但是作为一个旁注，显然除了奇数和二次幂之外还有更多的除数，因为问题中的代码在所有可能的股息中都提供了正确的商。例如，如果我以0.5f的增量搜索，我会得到以下部分列表：PASS: 1, 1.5, 2, 2.5, 3, 4, 5, 5.5, 6.5, 7, 8, 9, 9.5, 10.5, 11, 13, 13.5, 14.5, 15, 16, 17, 17.5, 18.5, 19, 21, 21.5, 22.5, 23, 25, 25.5, 26.5, 27, 29, 。
所有这些数字实际上都有一个精确的fp表示，只需几位，而不需要重复模式，因此通过扩展我的精确参数，它们可以正常工作。但是你有一个关于侧钻的观点。把我的回答看成是对其他工厂的抱怨。不完全是你的答案，也许是其他人的答案。
@很抱歉，如果我这里特别厚，那么奇数整除的重要性是什么？任何非零的float都可以通过…变成奇数。鼓卷…按适当的2次方缩放。因此，如果你证明基于fma的除法适用于所有奇数整数，并且你知道按2的幂进行逐位正确的除法很容易，那么你已经证明了fma算法适用于所有floats。
@我不存在，我不存在，你可能假设除以二的幂是一个精确的运算，但不幸的是，并非总是这样。当结果不正常时，可能发生舍入。这就是为什么我在问题中发布的代码适用于3.0f的除法，而不适用于6.0f的除法。你现在可以问：为什么不使用ftz模式并避免非规范化？这使得代码失败，因为计算出的残差突然下溢为零。通过运行包含在问题中的测试应用程序，您可以很容易地检查代码序列将对哪些除数起作用。
@那么Njuffa为什么不规范化分子s.t，它在[1,2)的范围内，像我提议的那样，用比例分母做fma除法，然后撤销两个比例？
@我不知道我不知道你在想什么。考虑写一个答案(所以喜欢问答，而不是讨论)。在这个问题中，测试所需的测试框架是可用的，您只需插入您想到的任何代码序列即可。

浮点除法的结果是：

标志旗
意义重大
一个指数
一组标志(溢出、下溢、不精确等——见fenv())

前3个片段正确(但标记集不正确)是不够的。如果不进一步了解(例如，结果的哪些部分实际上很重要，股息的可能值等)，我会假设用常数代替除法，用常数乘以(和/或复杂的fma混乱)几乎是不安全的。

此外，对于现代CPU，我也不认为用2个FMA替换一个分区总是一种改进。例如，如果瓶颈是指令获取/解码，那么这种"优化"会使性能变差。例如，如果后续指令不依赖于结果(CPU可以在等待结果的同时并行执行许多其他指令)，则FMA版本可能会导致多个依赖暂停并使性能变差。对于第三个例子，如果使用了所有寄存器，那么fma版本(它需要额外的"活动"变量)可能会增加"溢出"并使性能变差。

请注意(在许多情况下，但并非所有情况下)2的常数倍数的除法或乘法可以单独使用加法(特别是向指数添加移位计数)来完成。

相关讨论