从技术上讲,可变参数函数是如何工作的? printf如何工作?
我知道我可以使用va_arg
来编写自己的可变参数函数,但是可变参数函数如何在汇编指令级别下工作呢?
例如, printf
如何获取可变数目的参数?
*没有规则,没有例外。 没有语言C / C ++,但是,这个问题可以回答他们两个
*注意:最初给出的答案如何printf函数可以在输出variables参数的同时输出它们? ,但似乎并不适用于提问者
C和C ++标准对工作方式没有任何要求。 遵守的编译器可能会决定发出链式列表, std::stack<boost::any>
甚至魔法小马尘(如Xeo)。
但是,即使转换如在CPU寄存器中内联或传递参数,也可能不会留下任何讨论的代码,通常按如下方式实现。
还请注意,这个答案具体描述了在下面的视觉效果中的一个向下的堆叠。 此外,这个答案只是为了演示该scheme的简化(请参阅https://en.wikipedia.org/wiki/Stack_frame )。
如何用一个非固定数量的参数调用一个函数
这是可能的,因为底层机器体系结构对每个线程都有一个所谓的“栈”。 栈被用来传递参数给函数。 例如,当你有:
foobar("%d%d%d", 3,2,1);
然后编译成这样的汇编代码(示例和示意,实际代码可能看起来不同); 注意参数是从右向左传递的:
push 1 push 2 push 3 push "%d%d%d" call foobar
这些推送操作填满了堆栈:
[] // empty stack ------------------------------- push 1: [1] ------------------------------- push 2: [1] [2] ------------------------------- push 3: [1] [2] [3] // there is now 1, 2, 3 in the stack ------------------------------- push "%d%d%d":[1] [2] [3] ["%d%d%d"] ------------------------------- call foobar ... // foobar uses the same stack!
底部堆栈元素被称为“堆栈顶部”,通常缩写为“TOS”。
foobar
函数现在将访问堆栈,从TOS开始,即格式化string,正如你记得的那样,它是最后一个。 设想stack
是你的堆栈指针, stack[0]
是TOS的值, stack[1]
是TOS的上面的值,依此类推:
format_string <- stack[0]
…然后分析格式string。 在parsing时,它会识别%d
-tokens,并为每个从堆栈中加载一个值:
format_string <- stack[0] offset <- 1 while (parsing): token = tokenize_one_more(format_string) if (needs_integer (token)): value <- stack[offset] offset = offset + 1 ...
这当然是一个非常不完整的伪代码,它演示了函数如何依靠传递的参数来找出需要加载和从堆栈中移除的参数。
安全
这种对用户提供参数的依赖也是目前存在的最大安全问题之一(请参阅https://cwe.mitre.org/top25/ )。 用户可能会错误地使用可变参数函数,因为他们没有阅读文档,或者忘记调整格式string或参数列表,或者因为它们是邪恶的,或者其他什么东西。 另请参阅格式string攻击 。
C实施
在C和C ++中,可变参数函数与va_list
接口一起使用。 虽然推入栈是固有的( 在K + RC中,你甚至可以前向声明一个函数而不用声明它的参数 ,但是仍然用任何数量和types的参数来调用它),从这样一个未知的参数列表中读取是通过接口通过va_...
-macros和va_list
-type,它基本上抽象了低级的栈帧访问。
标准定义了variables函数,只有很less的显式限制。 这里是一个例子,从cplusplus.com解除。
/* va_start example */ #include <stdio.h> /* printf */ #include <stdarg.h> /* va_list, va_start, va_arg, va_end */ void PrintFloats (int n, ...) { int i; double val; printf ("Printing floats:"); va_list vl; va_start(vl,n); for (i=0;i<n;i++) { val=va_arg(vl,double); printf (" [%.2f]",val); } va_end(vl); printf ("\n"); } int main () { PrintFloats (3,3.14159,2.71828,1.41421); return 0; }
假设大致如下。
- 必须有(至less一个)第一个固定的命名参数。 实际上什么都不做,除了告诉编译器做正确的事情。
- 固定的参数通过一个未指定的机制提供了关于有多less可变参数的信息。
- 从固定参数中,
va_start
macros可以返回一个允许检索参数的对象。 types是va_list
。 - 从
va_list
对象中,va_arg
可以迭代每个可变参数,并将其值强制为兼容types。 - 在
va_start
可能会发生一些奇怪的事情,所以va_end
可以让事情再次正确。
在最常见的基于堆栈的情况下, va_list
只是一个指向坐在堆栈上的参数的指针,而va_arg
递增指针,将其转换并将其解引用为值。 然后va_start
通过一些简单的算术(和知识)初始化这个指针,而va_end
什么也不做。 没有什么奇怪的汇编语言,只是一些关于事物在堆栈上的知识。 阅读标准头文件中的macros,找出是什么。
一些编译器(MSVC)将需要特定的调用序列,由此调用者将释放堆栈而不是被调用者。
像printf
这样的函数就像这样工作。 固定参数是一个格式string,它允许计算参数的数量。
像vsprintf
这样的函数将va_list
对象作为普通参数types传递。
如果你需要更多或更低级别的细节,请添加到问题。