C语言函数堆栈的思考

源于一段课程案例的代码，拿编译器编译一下，结果不对，反复查了一下，无意中把结果改出来了，于是修改代码探索原因。虽然还有一些地方不太明确的，先总结一笔。

源码是这样的：

#include<stdio.h>
int main( ) {
     int x;
     x = 0;
     pass(1, 2, 3);
     x = 1;
     printf("%d",x);
}
int pass(int a, int b, int c) {
   char buffer[16];
   int sum;
   int *ret;
   ret = (int*)(buffer+28);
   (*ret) += 7;
   sum = a + b + c;
   return sum;
 }

粗看一下，会以为pass函数是多余的，结果不就是打印出来个1吗？其实不然，结果是0。
要理解这段代码，不得不从汇编的层面入手，先贴汇编上面两个函数的代码。

Linux下采用gcc进行编译，汇编代码如下：

080483c4 <main>:
 80483c4:       8d 4c 24 04             lea    0x4(%esp),%ecx
 80483c8:       83 e4 f0                and    $0xfffffff0,%esp
 80483cb:       ff 71 fc                pushl  -0x4(%ecx)
 80483ce:       55                      push   %ebp
 80483cf:       89 e5                   mov    %esp,%ebp
 80483d1:       51                      push   %ecx
 80483d2:       83 ec 24                sub    $0x24,%esp
 80483d5:       c7 45 f8 00 00 00 00    movl   $0x0,-0x8(%ebp)
 80483dc:       c7 44 24 08 03 00 00    movl   $0x3,0x8(%esp)
 80483e3:       00
 80483e4:       c7 44 24 04 02 00 00    movl   $0x2,0x4(%esp)
 80483eb:       00
 80483ec:       c7 04 24 01 00 00 00    movl   $0x1,(%esp)
 80483f3:       e8 23 00 00 00          call   804841b <pass>
 80483f8:       c7 45 f8 01 00 00 00    movl   $0x1,-0x8(%ebp)
 80483ff:       8b 45 f8                mov    -0x8(%ebp),%eax
 8048402:       89 44 24 04             mov    %eax,0x4(%esp)
 8048406:       c7 04 24 20 85 04 08    movl   $0x8048520,(%esp)
 804840d:       e8 ca fe ff ff          call   80482dc <printf@plt>
 8048412:       83 c4 24                add    $0x24,%esp
 8048415:       59                      pop    %ecx
 8048416:       5d                      pop    %ebp
 8048417:       8d 61 fc                lea    -0x4(%ecx),%esp
 804841a:       c3                      ret

0804841b <pass>:
 804841b:       55                      push   %ebp
 804841c:       89 e5                   mov    %esp,%ebp
 804841e:       83 ec 20                sub    $0x20,%esp
 8048421:       8d 45 e8                lea    -0x18(%ebp),%eax
 8048424:       83 c0 1c                add    $0x1c,%eax
 8048427:       89 45 f8                mov    %eax,-0x8(%ebp)
 804842a:       8b 45 f8                mov    -0x8(%ebp),%eax
 804842d:       8b 00                   mov    (%eax),%eax
 804842f:       8d 50 07                lea    0x7(%eax),%edx
 8048432:       8b 45 f8                mov    -0x8(%ebp),%eax
 8048435:       89 10                   mov    %edx,(%eax)
 8048437:       8b 45 0c                mov    0xc(%ebp),%eax
 804843a:       03 45 08                add    0x8(%ebp),%eax
 804843d:       03 45 10                add    0x10(%ebp),%eax
 8048440:       89 45 fc                mov    %eax,-0x4(%ebp)
 8048443:       8b 45 fc                mov    -0x4(%ebp),%eax
 8048446:       c9                      leave
 8048447:       c3                      ret

补充说明一下，内存结构：

内存中的堆栈结构

BSS段：BSS段（bss segment）通常是指用来存放程序中未初始化的全局变量的一块内存区域。BSS是英文Block Started by Symbol的简称。BSS段属于静态内存分配。

数据段：数据段（data segment）通常是指用来存放程序中已初始化的全局变量的一块内存区域。数据段属于静态内存分配。

代码段：代码段（code segment/text segment）通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定，并且内存区域通常属于只读, 某些架构也允许代码段为可写，即允许修改程序。在代码段中，也有可能包含一些只读的常数变量，例如字符串常量等。

堆（heap）：堆是用于存放进程运行中被动态分配的内存段，它的大小并不固定，可动态扩张或缩减。当进程调用malloc等函数分配内存时，新分配的内存就被动态添加到堆上（堆被扩张）；当利用free等函数释放内存时，被释放的内存从堆中被剔除（堆被缩减）

栈(stack)：栈又称堆栈，是用户存放程序临时创建的局部变量，也就是说我们函数括弧“{}”中定义的变量（但不包括static声明的变量，static意味着在数据段中存放变量）。除此以外，在函数被调用时，其参数也会被压入发起调用的进程栈中，并且待到调用结束后，函数的返回值也会被存放回栈中。由于栈的先进先出特点，所以栈特别方便用来保存/恢复调用现场。从这个意义上讲，我们可以把堆栈看成一个寄存、交换临时数据的内存区。

main函数调用pass函数后，内存栈如下：

pass函数被调用后的栈结构

上图中的地址通过gdb调试获得。其中返回地址Return Addr的值为0x080483f8，即指向调用pass()函数命令的后一行命令x=1;

在pass()函数中，ret = (int*)(buffer+28);获取了存放返回地址的内存空间地址，通过(*ret) += 7;使得pass()函数返回地址加了7，这样pass()函数返回后程序正好跳过了x=1; 命令，接着运行printf命令，所以结果最后显示为0。

以上将(*ret) += 7;改为(*ret) += 8;或(*ret) += 9;或(*ret) += 10;，结果都显示6，即pass()函数的返回结果。猜测是程序运行时有命令检查，+8和+9时返回后的命令皆不完整，直接跳到下一个可执行的命令，所以结果同+10的情况。(*ret) += 10;跳过了将变量x的值赋给寄存器%eax的命令，这样%eax寄存器中保留着之前pass()函数的运算结果6，后面两行命令是将寄存器%eax的结果显示出来，于是printf显示6；于是，(*ret) += 10;相当于跳过了给printf传递参数的命令。

对于栈中变量的存放顺序，通过实验做了研究，通过调整sum、ret和buffer的定义代码顺序即可，发现buffer地址总是低于sum和ret的地址，而sum和ret的地址是定义的早的位于低地址。可能与类型有关，有待查证。

另外在Windows XP上用MinGW进行了编译，结果差异较大，留待以后再去研究。

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自枫芸志，原文地址《C语言函数堆栈的思考》

标签： C • 堆栈

已经有2 条评论抢在你前面了~

沙发
叶三 2011年1月7日下午11:19

这个问题其实比较有趣，可惜这个是GCC随意性问题，比如我在F11和RHEL的一个版本上跑得很欢的一个代码片断(修改了一下pass):
int pass(int a, int b, int c)
{
int dou = 0x01112321;
int sum = 0x00004321;
int dum = 78;
int *ret = 0x00115555;
ret = &dou + 5;
(*ret) += 7;
sum = a + b + c;
return sum;
}

但是到我的Ubuntu上面，GCC版本：
gcc version 4.4.3

代码就要修正两句:
ret = &dou + 2;
(*ret) += 8;

其实就是一个子函数变量压栈的问题，比如，我用的Ubuntu上面GCC是这样的，
(gdb) x/20xw $esp
0xbffff2a8: 0x00115555 0x0000004e 0x00004321 0x01112321
0xbffff2b8: 0xbffff2e8 0x08048411 0x00000001 0x00000002
0xbffff2c8: 0x00000003 0xbffff2e8 0x0015d4a5 0x0011e030
加8,是因为
8048405: c7 04 24 01 00 00 00 movl $0x1,(%esp)
804840c: e8 1f 00 00 00 call 8048430
8048411: c7 44 24 1c 01 00 00 movl $0x1,0x1c(%esp)
8048418: 00
8048419: b8 40 85 04 08 mov $0x8048540,%eax

问题本身很有趣，可惜没有统一解。

[回复]
晴枫 1月 7th, 2011 下午11:34 回复:
@叶三, 确实是不同编译器压栈方式的不同导致的，或许可以写成宏函数来做个统一的处理

[回复]

枫芸志

枫芸志

C语言函数堆栈的思考

已经有2 条评论抢在你前面了~

点击这里取消回复。