操作系統(tǒng)通過系統(tǒng)調(diào)用為運行于其上的進程提供服務(wù)。
當(dāng)用戶態(tài)進程發(fā)起一個系統(tǒng)調(diào)用, CPU 將切換到 內(nèi)核態(tài) 并開始執(zhí)行一個 內(nèi)核函數(shù) 。 內(nèi)核函數(shù)負責(zé)響應(yīng)應(yīng)用程序的要求,例如操作文件、進行網(wǎng)絡(luò)通訊或者申請內(nèi)存資源等。
舉一個最簡單的例子,應(yīng)用進程需要輸出一行文字,需要調(diào)用 write 這個系統(tǒng)調(diào)用:
hello_world.c
#include <string.h>
#include <unistd.h>
int main(int argc, char *argv[])
{
char *msg = "Hello, world!\n";
write(1, msg, strlen(msg));
return 0;
}
注解
讀者可能會有些疑問——輸出文本不是用 printf 等函數(shù)嗎?
確實是。 printf 是更高層次的庫函數(shù),建立在系統(tǒng)調(diào)用之上,實現(xiàn)數(shù)據(jù)格式化等功能。 因此,本質(zhì)上還是系統(tǒng)調(diào)用起決定性作用。
調(diào)用流程
那么,在應(yīng)用程序內(nèi),調(diào)用一個系統(tǒng)調(diào)用的流程是怎樣的呢?
我們以一個假設(shè)的系統(tǒng)調(diào)用 xyz 為例,介紹一次系統(tǒng)調(diào)用的所有環(huán)節(jié)。

如上圖,系統(tǒng)調(diào)用執(zhí)行的流程如下:
- 應(yīng)用程序 代碼調(diào)用系統(tǒng)調(diào)用( xyz ),該函數(shù)是一個包裝系統(tǒng)調(diào)用的 庫函數(shù) ;
- 庫函數(shù) ( xyz )負責(zé)準(zhǔn)備向內(nèi)核傳遞的參數(shù),并觸發(fā) 軟中斷 以切換到內(nèi)核;
- CPU 被 軟中斷 打斷后,執(zhí)行 中斷處理函數(shù) ,即 系統(tǒng)調(diào)用處理函數(shù) ( system_call );
- 系統(tǒng)調(diào)用處理函數(shù) 調(diào)用 系統(tǒng)調(diào)用服務(wù)例程 ( sys_xyz ),真正開始處理該系統(tǒng)調(diào)用;
執(zhí)行態(tài)切換
應(yīng)用程序 ( application program )與 庫函數(shù) ( libc )之間, 系統(tǒng)調(diào)用處理函數(shù) ( system call handler )與 系統(tǒng)調(diào)用服務(wù)例程 ( system call service routine )之間, 均是普通函數(shù)調(diào)用,應(yīng)該不難理解。 而 庫函數(shù) 與 系統(tǒng)調(diào)用處理函數(shù) 之間,由于涉及用戶態(tài)與內(nèi)核態(tài)的切換,要復(fù)雜一些。
Linux 通過 軟中斷 實現(xiàn)從 用戶態(tài) 到 內(nèi)核態(tài) 的切換。 用戶態(tài) 與 內(nèi)核態(tài) 是獨立的執(zhí)行流,因此在切換時,需要準(zhǔn)備 執(zhí)行棧 并保存 寄存器 。
內(nèi)核實現(xiàn)了很多不同的系統(tǒng)調(diào)用(提供不同功能),而 系統(tǒng)調(diào)用處理函數(shù) 只有一個。 因此,用戶進程必須傳遞一個參數(shù)用于區(qū)分,這便是 系統(tǒng)調(diào)用號 ( system call number )。 在 Linux 中, 系統(tǒng)調(diào)用號 一般通過 eax 寄存器 來傳遞。
總結(jié)起來, 執(zhí)行態(tài)切換 過程如下:
- 應(yīng)用程序 在 用戶態(tài) 準(zhǔn)備好調(diào)用參數(shù),執(zhí)行 int 指令觸發(fā) 軟中斷 ,中斷號為 0x80 ;
- CPU 被軟中斷打斷后,執(zhí)行對應(yīng)的 中斷處理函數(shù) ,這時便已進入 內(nèi)核態(tài) ;
- 系統(tǒng)調(diào)用處理函數(shù) 準(zhǔn)備 內(nèi)核執(zhí)行棧 ,并保存所有 寄存器 (一般用匯編語言實現(xiàn));
- 系統(tǒng)調(diào)用處理函數(shù) 根據(jù) 系統(tǒng)調(diào)用號 調(diào)用對應(yīng)的 C 函數(shù)—— 系統(tǒng)調(diào)用服務(wù)例程 ;
- 系統(tǒng)調(diào)用處理函數(shù) 準(zhǔn)備 返回值 并從 內(nèi)核棧 中恢復(fù) 寄存器 ;
- 系統(tǒng)調(diào)用處理函數(shù) 執(zhí)行 ret 指令切換回 用戶態(tài) ;
編程實踐
下面,通過一個簡單的程序,看看應(yīng)用程序如何在 用戶態(tài) 準(zhǔn)備參數(shù)并通過 int 指令觸發(fā) 軟中斷 以陷入 內(nèi)核態(tài) 執(zhí)行 系統(tǒng)調(diào)用 :
hello_world-int.S
.section .rodata
msg:
.ascii "Hello, world!\n"
.section .text
.global _start
_start:
# call SYS_WRITE
movl $4, %eax
# push arguments
movl $1, %ebx
movl $msg, %ecx
movl $14, %edx
int $0x80
# Call SYS_EXIT
movl $1, %eax
# push arguments
movl $0, %ebx
# initiate
int $0x80
這是一個匯編語言程序,程序入口在 _start 標(biāo)簽之后。
第 12 行,準(zhǔn)備 系統(tǒng)調(diào)用號 :將常數(shù) 4 放進 寄存器 eax 。 系統(tǒng)調(diào)用號 4 代表 系統(tǒng)調(diào)用 SYS_write , 我們將通過該系統(tǒng)調(diào)用向標(biāo)準(zhǔn)輸出寫入一個字符串。
第 14-16 行, 準(zhǔn)備系統(tǒng)調(diào)用參數(shù):第一個參數(shù)放進 寄存器 ebx ,第二個參數(shù)放進 ecx , 以此類推。
write 系統(tǒng)調(diào)用需要 3 個參數(shù):
- 文件描述符 ,標(biāo)準(zhǔn)輸出文件描述符為 1 ;
- 寫入內(nèi)容(緩沖區(qū))地址;
- 寫入內(nèi)容長度(字節(jié)數(shù));
第 17 行,執(zhí)行 int 指令觸發(fā)軟中斷 0x80 ,程序?qū)⑾萑雰?nèi)核態(tài)并由內(nèi)核執(zhí)行系統(tǒng)調(diào)用。 系統(tǒng)調(diào)用執(zhí)行完畢后,內(nèi)核將負責(zé)切換回用戶態(tài),應(yīng)用程序繼續(xù)執(zhí)行之后的指令( 從 20 行開始 )。
第 20-24 行,調(diào)用 exit 系統(tǒng)調(diào)用,以便退出程序。
注解
注意到,這里必須顯式調(diào)用 exit 系統(tǒng)調(diào)用退出程序。 否則,程序?qū)⒗^續(xù)往下執(zhí)行,最終遇到段錯誤( segmentation fault )!
讀者可能很好奇——我在寫 C 語言或者其他程序時,這個調(diào)用并不是必須的!
這是因為 C 庫( libc )已經(jīng)幫你把臟活累活都干了。
接下來,我們編譯并執(zhí)行這個匯編語言程序:
$ ls
hello_world-int.S
$ as -o hello_world-int.o hello_world-int.S
$ ls
hello_world-int.o hello_world-int.S
$ ld -o hello_world-int hello_world-int.o
$ ls
hello_world-int hello_world-int.o hello_world-int.S
$ ./hello_world-int
Hello, world!
其實,將 系統(tǒng)調(diào)用號 和 調(diào)用參數(shù) 放進正確的 寄存器 并觸發(fā)正確的 軟中斷 是個重復(fù)的麻煩事。 C 庫已經(jīng)把這臟累活給干了——試試 syscall 函數(shù)吧!
hello_world-syscall.c
#include <string.h>
#include <sys/syscall.h>
#include <unistd.h>
int main(int argc, char *argv[])
{
char *msg = "Hello, world!\n";
syscall(SYS_write, 1, msg, strlen(msg));
return 0;
}