在使用intel编译器的Windows和Linux之间的性能差异:看看程序集

我正在Windows和Linux(x86-64)上运行一个程序。 它使用相同的编译器(Intel Parallel Studio XE 2017)进行编译,其版本相同,Windows版本比Linux版本快3倍。 罪魁祸首是对std :: erf的调用,在英特尔math库中解决了这两种情况(默认情况下,它在Windows上静态链接,在Linux上静态链接,但在Linux上使用dynamic链接可提供相同的性能)。

这是一个简单的程序来重现问题。

#include <cmath> #include <cstdio> int main() { int n = 100000000; float sum = 1.0f; for (int k = 0; k < n; k++) { sum += std::erf(sum); } std::printf("%7.2f\n", sum); } 

当我使用vTune来分析这个程序时,我发现程序集在Windows和Linux版本之间有点不同。 这是Windows上的呼叫站点(循环)

 Block 3: "vmovaps xmm0, xmm6" call 0x1400023e0 <erff> Block 4: inc ebx "vaddss xmm6, xmm6, xmm0" "cmp ebx, 0x5f5e100" jl 0x14000103f <Block 3> 

在Windows上调用erf函数的开始

 Block 1: push rbp "sub rsp, 0x40" "lea rbp, ptr [rsp+0x20]" "lea rcx, ptr [rip-0xa6c81]" "movd edx, xmm0" "movups xmmword ptr [rbp+0x10], xmm6" "movss dword ptr [rbp+0x30], xmm0" "mov eax, edx" "and edx, 0x7fffffff" "and eax, 0x80000000" "add eax, 0x3f800000" "mov dword ptr [rbp], eax" "movss xmm6, dword ptr [rbp]" "cmp edx, 0x7f800000" ... 

在Linux上,代码有点不同。 呼叫地点是:

 Block 3 "vmovaps %xmm1, %xmm0" "vmovssl %xmm1, (%rsp)" callq 0x400bc0 <erff> Block 4 inc %r12d "vmovssl (%rsp), %xmm1" "vaddss %xmm0, %xmm1, %xmm1" <-------- hotspot here "cmp $0x5f5e100, %r12d" jl 0x400b6b <Block 3> 

被调用函数(erf)的开始是:

 "movd %xmm0, %edx" "movssl %xmm0, -0x10(%rsp)" <-------- hotspot here "mov %edx, %eax" "and $0x7fffffff, %edx" "and $0x80000000, %eax" "add $0x3f800000, %eax" "movl %eax, -0x18(%rsp)" "movssl -0x18(%rsp), %xmm0" "cmp $0x7f800000, %edx" jnl 0x400dac <Block 8> ... 

我已经显示了在Linux上丢失时间的两点。

有没有人了解程序集足以解释2代码的差异,为什么Linux版本慢3倍?

在这两种情况下,根据Windows和GNU / Linux上的相应调用约定,参数和结果在寄存器中传递。

在GNU / Linux版本中, xmm1用于累加和。 由于这是一个呼叫限制寄存器(又称呼叫者保存),它在每次呼叫时被存储(并恢复)在呼叫者的堆栈帧中。

在Windows中, xmm6用于累加和。 该寄存器在Windows调用约定中被保存( 但不在GNU / Linux中 )。

因此,总之,GNU / Linux版本保存/恢复xmm0 (在被调用者[1])和xmm1 (在调用者中),而Windows版本只保存/恢复xmm6 (在被调用者中)。

[1]需要看std::errf来找出原因。

使用Visual Studio 2015,Win 7 64位模式,我find了erf()中使用的一些path的下面的代码(不是所有显示的path)。 每条path最多可以从内存中读取8个(也许更多的是用于其他path)常量,因此单个存储/加载寄存器似乎不会导致Linux和Windows之间3倍的速度差异。 至于保存/恢复,这个例子保存和恢复xmm6和xmm7。 至于那个时候,原帖中的程序在Intel 3770K(3.5ghz cpu)(VS2015 / Win 7 64 bit)上大概需要0.86秒。 更新 – 我后来确定xmm寄存器的保存和恢复的开销在程序10 ^ 8循环(每个循环约3纳秒)的情况下约为0.03秒。

 000007FEEE25CF90 mov rax,rsp 000007FEEE25CF93 movss dword ptr [rax+8],xmm0 000007FEEE25CF98 sub rsp,48h 000007FEEE25CF9C movaps xmmword ptr [rax-18h],xmm6 000007FEEE25CFA0 lea rcx,[rax+8] 000007FEEE25CFA4 movaps xmmword ptr [rax-28h],xmm7 000007FEEE25CFA8 movaps xmm6,xmm0 000007FEEE25CFAB call 000007FEEE266370 000007FEEE25CFB0 movsx ecx,ax 000007FEEE25CFB3 test ecx,ecx 000007FEEE25CFB5 je 000007FEEE25D0AF 000007FEEE25CFBB sub ecx,1 000007FEEE25CFBE je 000007FEEE25D08F 000007FEEE25CFC4 cmp ecx,1 000007FEEE25CFC7 je 000007FEEE25D0AF 000007FEEE25CFCD xorps xmm7,xmm7 000007FEEE25CFD0 movaps xmm2,xmm6 000007FEEE25CFD3 comiss xmm7,xmm6 000007FEEE25CFD6 jbe 000007FEEE25CFDF 000007FEEE25CFD8 xorps xmm2,xmmword ptr [7FEEE2991E0h] 000007FEEE25CFDF movss xmm0,dword ptr [7FEEE298E50h] 000007FEEE25CFE7 comiss xmm0,xmm2 000007FEEE25CFEA jbe 000007FEEE25D053 000007FEEE25CFEC movaps xmm2,xmm6 000007FEEE25CFEF mulss xmm2,xmm6 000007FEEE25CFF3 movaps xmm0,xmm2 000007FEEE25CFF6 movaps xmm1,xmm2 000007FEEE25CFF9 mulss xmm0,dword ptr [7FEEE298B34h] 000007FEEE25D001 mulss xmm1,dword ptr [7FEEE298B5Ch] 000007FEEE25D009 addss xmm0,dword ptr [7FEEE298B8Ch] 000007FEEE25D011 addss xmm1,dword ptr [7FEEE298B9Ch] 000007FEEE25D019 mulss xmm0,xmm2 000007FEEE25D01D mulss xmm1,xmm2 000007FEEE25D021 addss xmm0,dword ptr [7FEEE298BB8h] 000007FEEE25D029 addss xmm1,dword ptr [7FEEE298C88h] 000007FEEE25D031 mulss xmm0,xmm2 000007FEEE25D035 mulss xmm1,xmm2 000007FEEE25D039 addss xmm0,dword ptr [7FEEE298DC8h] 000007FEEE25D041 addss xmm1,dword ptr [7FEEE298D8Ch] 000007FEEE25D049 divss xmm0,xmm1 000007FEEE25D04D mulss xmm0,xmm6 000007FEEE25D051 jmp 000007FEEE25D0B2 000007FEEE25D053 movss xmm1,dword ptr [7FEEE299028h] 000007FEEE25D05B comiss xmm1,xmm2 000007FEEE25D05E jbe 000007FEEE25D076 000007FEEE25D060 movaps xmm0,xmm2 000007FEEE25D063 call 000007FEEE25CF04 000007FEEE25D068 movss xmm1,dword ptr [7FEEE298D8Ch] 000007FEEE25D070 subss xmm1,xmm0 000007FEEE25D074 jmp 000007FEEE25D07E 000007FEEE25D076 movss xmm1,dword ptr [7FEEE298D8Ch] 000007FEEE25D07E comiss xmm7,xmm6 000007FEEE25D081 jbe 000007FEEE25D08A 000007FEEE25D083 xorps xmm1,xmmword ptr [7FEEE2991E0h] 000007FEEE25D08A movaps xmm0,xmm1 000007FEEE25D08D jmp 000007FEEE25D0B2 000007FEEE25D08F mov eax,8000h 000007FEEE25D094 test word ptr [rsp+52h],ax 000007FEEE25D099 je 000007FEEE25D0A5 000007FEEE25D09B movss xmm0,dword ptr [7FEEE2990DCh] 000007FEEE25D0A3 jmp 000007FEEE25D0B2 000007FEEE25D0A5 movss xmm0,dword ptr [7FEEE298D8Ch] 000007FEEE25D0AD jmp 000007FEEE25D0B2 000007FEEE25D0AF movaps xmm0,xmm6 000007FEEE25D0B2 movaps xmm6,xmmword ptr [rsp+30h] 000007FEEE25D0B7 movaps xmm7,xmmword ptr [rsp+20h] 000007FEEE25D0BC add rsp,48h 000007FEEE25D0C0 ret