mit-6s081-lab02-System_call_tracing

2025/5/19 操作系统 mit6.s081_labs

声明

文章仅具有解释意义
希望能为你搭建知识框架

过程

Makefile Modification:

makefile
UPROGS=
…
$U/_trace
User Space Modifications:

user/user.h:

int trace(int);

user/usys.pl:

entry("trace");

Kernel Modifications:

kernel/syscall.h:

#define SYS_trace 22

kernel/syscall.c:


extern uint64 sys_trace(void);
//这里是自己添加不是将syscalls修改
static char *syscall_names[] = {   
    [SYS_fork]    "fork",
    [SYS_exit]    "exit",
    [SYS_wait]    "wait",
    [SYS_pipe]    "pipe",
    [SYS_read]    "read",
    [SYS_kill]    "kill",
    [SYS_exec]    "exec",
    [SYS_fstat]   "fstat",
    [SYS_chdir]   "chdir",
    [SYS_dup]     "dup",
    [SYS_getpid]  "getpid",
    [SYS_sbrk]    "sbrk",
    [SYS_sleep]   "sleep",
    [SYS_uptime]  "uptime",
    [SYS_open]    "open",
    [SYS_write]   "write",
    [SYS_mknod]   "mknod",
    [SYS_unlink]  "unlink",
    [SYS_link]    "link",
    [SYS_mkdir]   "mkdir",
    [SYS_close]   "close",
    [SYS_trace]   "trace",
};

kernel/sysproc.c:

uint64 sys_trace(void) {
    int mask;
    if (argint(0, &mask) < 0)
        return -1;
    struct proc *p = myproc();
    p->trace_mask = mask;
    return 0;
}

kernel/proc.h:

struct proc {
    ...
    int trace_mask;
    ...
};

kernel/proc.c (fork and allocproc):

int fork(void) {
    ...
    np->trace_mask = p->trace_mask;
    ...
}

static struct proc* allocproc(void) {
    ...
    p->trace_mask = 0;
    ...
}
kernel/syscall.c (syscall function):

void syscall(void) {
    int num;
    struct proc *p = myproc();

    num = p->trapframe->a7;
    if (num > 0 && num < NELEM(syscalls) && syscalls[num]) {
        p->trapframe->a0 = syscalls[num]();
        if ((p->trace_mask & (1 << num)) != 0) {
            char *name = "unknown";
            if (num < NELEM(syscall_names) && syscall_names[num] != 0) {
                name = syscall_names[num];
            }
            printf("%d: syscall %s -> %d\n", p->pid, name, p->trapframe->a0);
        }
    } else {
        printf("%d %s: unknown sys call %d\n", p->pid, p->name, num);
        p->trapframe->a0 = -1;
    }
}

AI问答

总结一下这个assignment的知识点，以及完成过程

系统调用跟踪（System Call Tracing）作业知识点总结

核心知识点系统调用机制：

用户态与内核态的交互流程（ecall/eret指令）。

系统调用号的分配与处理函数映射（syscalls[]数组）。

用户态存根（usys.pl生成汇编代码）与内核处理函数（sys_*）的关联。

进程管理：

进程控制块（PCB，即struct proc）的结构与扩展（添加trace_mask字段）。

进程创建（fork）时的属性继承（复制父进程的trace_mask）。

进程初始化（allocproc）时的字段初始化（trace_mask设为0）。

内核调试与日志：

在系统调用返回前打印调试信息（进程ID、系统调用名、返回值）。

使用printf在内核中输出日志，需注意并发安全（避免死锁）。

位掩码（Bitmask）操作：

通过位运算（如mask & (1 << num)）判断是否需要跟踪特定系统调用。

掩码的传递与保存（用户参数到内核的trace_mask）。

完成过程步骤添加用户态支持：

Makefile：将_trace添加到UPROGS，确保用户程序编译。

用户头文件：在user/user.h中声明int trace(int);。

系统调用存根：在user/usys.pl中添加entry(“trace”);生成汇编代码。

定义系统调用号：

kernel/syscall.h：添加#define SYS_trace 22（或其他未使用的编号）。

扩展进程结构体：

kernel/proc.h：在struct proc中添加int trace_mask;字段。

实现系统调用处理函数：

kernel/sysproc.c：

uint64 sys_trace(void) {
    int mask;
    if (argint(0, &mask) < 0) return -1;
    myproc()->trace_mask = mask;
    return 0;
}

修改进程创建逻辑：

kernel/proc.c：

allocproc：初始化新进程的trace_mask为0。

static struct proc* allocproc() {
    // ...
    p->trace_mask = 0; // 初始化
    // ...
}

fork：复制父进程的trace_mask到子进程。

int fork() {
    // ...
    np->trace_mask = p->trace_mask; // 继承
    // ...
}

修改系统调用处理逻辑：

kernel/syscall.c：

定义系统调用名称数组syscall_names[]，映射编号到名称。

在syscall()函数中添加跟踪逻辑：

void syscall(void) {
    int num;
    struct proc *p = myproc();
    num = p->trapframe->a7;
    if (num > 0 && num < NELEM(syscalls) && syscalls[num]) {
        p->trapframe->a0 = syscalls[num]();
        // 检查是否需要跟踪
        if (p->trace_mask & (1 << num)) {
            printf("%d: syscall %s -> %d\n", 
                   p->pid, syscall_names[num], p->trapframe->a0);
        }
    }
}

调试与验证：

编译错误处理：解决类型不匹配（如函数指针与字符串数组混淆）、头文件缺失（如NULL未定义）。

运行时错误：通过scause和sepc定位页错误或无效内存访问（如直接解引用用户指针）。

功能测试：

运行trace 32 grep hello README验证read调用跟踪。

运行trace 2147483647 grep hello README验证全系统调用跟踪。

关键挑战与解决用户参数传递：使用argint安全获取用户空间传递的掩码，避免直接解引用。

进程间继承：确保fork正确复制trace_mask，子进程行为符合预期。

内核日志安全：在syscall()中调用printf需注意锁机制，防止并发问题。

系统调用表维护：保持syscalls[]与syscall_names[]数组的同步更新。

最终效果命令示例：

$ trace 32 grep hello README    # 跟踪read系统调用
$ trace 2147483647 ls           # 跟踪所有系统调用

输出示例：

3: syscall read -> 1023
3: syscall read -> 966
4: syscall trace -> 0
4: syscall exec -> 3
5. 延伸思考性能影响：频繁的日志输出可能降低系统性能，如何优化？

动态跟踪：能否实现运行时动态启用/禁用跟踪，而非通过进程继承？

安全边界：如何防止恶意用户滥用跟踪功能泄露内核信息？

通过本作业，深入理解了xv6系统调用机制、进程管理及内核调试技术，为后续文件系统、多线程等实验奠定基础。

列出这些文件之间的关联以下是 xv6 系统调用跟踪（System Call Tracing）作业中涉及的关键文件及其关联关系的详细说明：

文件功能与关联说明

用户态程序 (user/ 目录)
文件作用关联文件
user/trace.c 用户态测试程序，调用 trace() 和 exec() 运行目标程序。依赖 user/user.h 声明接口。
user/user.h 声明用户态系统调用接口（如 int trace(int);）。被 trace.c 和 usys.pl 依赖。
user/usys.pl Perl 脚本，生成 user/usys.S（系统调用存根）。生成 usys.S，为内核提供入口。
user/usys.S 汇编代码，包含 ecall 指令跳转到内核。链接用户程序与内核系统调用。
内核系统调用处理 (kernel/ 目录)
文件作用关联文件
kernel/syscall.h 定义系统调用号（如 #define SYS_trace 22）。被 syscall.c 和用户态头文件引用。
kernel/syscall.c 系统调用分派中心：

维护 syscalls[] 函数指针数组。
实现 syscall() 函数，处理日志打印逻辑。调用 sysproc.c 和 sysfile.c 的具体实现。
kernel/sysproc.c 实现进程相关系统调用（如 sys_trace()）。操作 proc.h 中的进程结构体。
kernel/proc.h 定义进程控制块 struct proc，包含新增字段 trace_mask。被 proc.c 和 sysproc.c 使用。
kernel/proc.c 进程管理：
allocproc()：初始化 trace_mask=0。
fork()：复制 trace_mask 到子进程。依赖 proc.h 结构体定义。

编译与链接文件作用关联文件
Makefile 编译规则：

将 _trace 加入 UPROGS。
调用 usys.pl 生成 usys.S。控制用户程序和内核的编译流程。关键数据流用户发起跟踪
user/trace.c → trace() → user/usys.S（ecall） → kernel/syscall.c（syscall()） → kernel/sysproc.c（sys_trace()） → 设置 proc->trace_mask。

系统调用执行与日志

任何系统调用（如 read）触发 kernel/syscall.c 的 syscall()。

检查 proc->trace_mask 决定是否打印日志。

从 syscall_names[] 获取名称，输出格式：pid: syscall name -> return_value。

进程继承
fork() 调用链：
user → sys_fork → kernel/proc.c → 复制父进程 trace_mask 到子进程。

依赖关系总结用户程序依赖内核接口
user/trace.c 通过 user/user.h 声明调用 trace()，最终由内核实现。

内核依赖进程结构体
sysproc.c 和 proc.c 共同操作 proc.h 中的 struct proc。

系统调用表维护
syscall.c 的 syscalls[] 和 syscall_names[] 需同步更新（如新增 SYS_trace）。

编译时生成代码
usys.pl 脚本生成 usys.S，确保用户态能正确跳转到内核。

调试时的核心检查点系统调用号一致性

user/user.h、kernel/syscall.h、syscall.c 中的 SYS_trace 必须相同。

进程字段初始化

allocproc() 和 fork() 必须正确操作 trace_mask。

日志逻辑安全

syscall() 中的 printf 不应破坏寄存器状态（避免在 trapframe 修改前调用）。

通过理解这些文件关联，可以高效定位问题（如未继承 trace_mask 或日志未打印），并确保修改符合 xv6 的整体架构。

trace 32 grep hello README 描述这条命令的执行过程以下是命令 trace 32 grep hello README 在 xv6 中的完整执行过程分析，结合系统调用跟踪功能的实现逻辑：

命令解析
trace 32 grep hello README

trace：用户态程序，调用 trace() 系统调用设置掩码，并执行后续命令。

32：跟踪掩码值（1 << SYS_read，即只跟踪 read 系统调用）。

grep hello README：被跟踪的目标命令。

执行流程详解阶段 1：trace 程序初始化用户态启动

Shell 解析命令后，通过 exec() 加载 trace 程序到内存。

trace 的 main() 开始执行（user/trace.c）：

int main(int argc, char *argv[]) {
    if (argc < 3) { /* 检查参数 */ }
    int mask = atoi(argv[1]); // 解析掩码 "32"
    trace(mask);             // 调用 trace() 系统调用
    exec(argv[2], &argv[2]); // 执行 "grep hello README"
}

调用 trace() 系统调用

用户态存根：user/usys.S 中的 trace 标签通过 ecall 陷入内核。

trace:
    li a7, SYS_trace  # 将系统调用号存入 a7
    ecall             # 切换到内核态
    ret

内核处理：

kernel/syscall.c 的 syscall() 根据 a7 调用 sys_trace()。

kernel/sysproc.c 的 sys_trace() 设置当前进程的 trace_mask：

uint64 sys_trace(void) {
    int mask;
    argint(0, &mask);          // 从用户态读取 mask=32
    myproc()->trace_mask = mask; // 设置进程的 trace_mask
    return 0;
}

阶段 2：执行 grep hello README
调用 exec() 加载 grep

trace 程序通过 exec(“grep”, {“grep”, “hello”, “README”}) 加载 grep。

内核行为：

sys_exec() 加载 grep 的代码和数据，替换当前进程的内存空间。

继承属性：子进程（原 trace 进程）的 trace_mask=32 被保留。

grep 执行时的系统调用跟踪

grep 执行过程中调用 read() 读取 README 文件：

触发 read 系统调用：grep 的代码调用 read() → ecall → syscall()。

内核检查跟踪条件：

// kernel/syscall.c 的 syscall() 逻辑
if (p->trace_mask & (1 << num)) { // num=SYS_read, 1<<5=32
    printf("%d: syscall %s -> %d\n", p->pid, "read", return_value);
}

输出示例：

3: syscall read -> 1023 // 第一次读取
3: syscall read -> 966 // 第二次读取阶段 3：跟踪终止进程退出

grep 执行完毕退出后，Shell 回收进程资源。

跟踪日志随进程终止而结束。

关键机制说明步骤关键行为涉及文件用户态传参 trace 程序将掩码 32 通过 trace() 系统调用传递给内核。 user/trace.c, user/usys.S
内核设置掩码 sys_trace() 设置当前进程的 trace_mask=32。 kernel/sysproc.c
掩码继承 fork() 和 exec() 保留 trace_mask，确保 grep 继承跟踪状态。 kernel/proc.c
系统调用跟踪 syscall() 检查 trace_mask & (1 << num) 决定是否打印日志。 kernel/syscall.c
日志输出仅当系统调用号 num（如 SYS_read=5）对应的位被置 1 时打印。 kernel/syscall.c
掩码计算示例
32 的二进制：100000（第5位为1，因为 SYS_read=5）。

检查逻辑：

c
if (trace_mask & (1 << SYS_read)) => if (32 & (1<<5)) => if (32 & 32) => 成立因此仅跟踪 read 调用。

输出结果示例

$ trace 32 grep hello README
3: syscall read -> 1023  # grep 第一次读取 README
3: syscall read -> 966   # 第二次读取
3: syscall read -> 70    # 第三次读取
3: syscall read -> 0     # 文件结束

总结通过此命令，xv6 实现了对 grep 程序的 read 系统调用跟踪，展示了以下核心机制：

用户态到内核态的切换（ecall）。

进程属性的动态设置与继承（trace_mask）。

系统调用分派与条件日志（syscall() 和位掩码检查）。

这些参数是如何传递的在 xv6 中，系统调用参数的传递涉及用户态到内核态的数据交换，主要通过寄存器、栈和内核安全函数协作完成。以下是命令 trace 32 grep hello README 的参数传递全流程解析：

用户态参数准备
trace 程序的参数（用户态）
argv 结构：

argv = ["trace", "32", "grep", "hello", "README"]

trace.c 的 main 函数：

int main(int argc, char *argv[]) {
    int mask = atoi(argv[1]);  // 字符串 "32" → 整数 32
    trace(mask);               // 调用 trace(32)
    exec(argv[2], &argv[2]);   // 调用 exec("grep", ["grep", "hello", "README"])
}

系统调用参数传递机制
(1) 用户态到内核态的切换
trace() 系统调用：

用户态存根（user/usys.S）：

trace:
    li a7, SYS_trace  # 系统调用号存入 a7（SYS_trace=22）
    mv a0, a0         # 第一个参数（mask=32）已由用户代码放在 a0
    ecall             # 切换到内核态
    ret

关键寄存器：

寄存器作用值
a7 系统调用号 22（SYS_trace）
a0 第一个参数（mask） 32
(2) 内核读取用户参数
sys_trace() 处理（kernel/sysproc.c）：

uint64 sys_trace(void) {
    int mask;
    if (argint(0, &mask) < 0) return -1;  // 从用户态 a0 读取 mask
    myproc()->trace_mask = mask;          // 保存到当前进程
    return 0;
}

argint 函数（kernel/syscall.c）：

从用户态的 a0 寄存器（存储 mask）复制值到内核。

使用 fetchint 安全访问用户内存（防止页错误导致内核崩溃）。

exec() 的参数传递
(1) 用户态参数准备
exec(argv[2], &argv[2])：

argv[2] = “grep”（程序名）

&argv[2] = [“grep”, “hello”, “README”]（参数列表）

(2) 内核处理 exec 参数
sys_exec()（kernel/sysfile.c）：

uint64 sys_exec(void) {
    char path[MAXPATH], *argv[MAXARG];
    uint64 uargv; // 用户态地址
    argaddr(1, &uargv); // 从 a1 读取用户态 argv 地址
    // 安全复制每个用户态字符串到内核
    for (i = 0; ; i++) {
        if (fetchaddr(uargv + i*sizeof(uint64), &uarg) < 0) break;
        if (fetchstr(uarg, argv[i], MAXPATH) < 0) break;
    }
    // 执行程序
    return exec(path, argv);
}

关键步骤：

argaddr(1, &uargv)：从寄存器 a1 获取用户态 argv 数组地址。

fetchaddr + fetchstr：逐项复制用户态字符串到内核。

参数传递总结步骤参数类型传递方式关键函数/寄存器
trace(mask) 整数 (32) 用户态 a0 → 内核 argint() a7=22, a0=32
exec(argv) 字符串数组用户态 a1（指针）→ 内核 fetchstr a7=7, a0=“grep”, a1=argv
安全机制寄存器隔离

用户态和内核态使用独立的寄存器副本（通过 ecall 切换时保存上下文）。

边界检查

fetchint/fetchstr 检查用户指针有效性，防止内核访问非法地址。

进程属性隔离

trace_mask 存储在进程控制块（struct proc）中，各进程独立。

示例：trace 32 grep hello README 的寄存器状态系统调用寄存器值说明
trace a7 22（SYS_trace）系统调用号
a0 32 跟踪掩码
exec a7 7（SYS_exec）系统调用号
a0 用户态 “grep” 的地址程序路径
a1 用户态 [“grep”, …] 的地址参数列表指针通过这种设计，xv6 实现了安全高效的用户态-内核态参数传递，确保系统调用的可靠性和隔离性。

trace:
li a7, SYS_trace
ecall
ret
这是什么语法,.s是什么文件以下是关于 trace:、.s 文件及 RISC-V 汇编语法的详细解释：

代码语法解析

trace:           ; 标签（函数入口）
    li a7, SYS_trace  ; 将系统调用号加载到寄存器 a7
    ecall            ; 触发软中断，切换到内核态
    ret              ; 返回调用者

逐行说明指令/标签作用寄存器/参数说明
trace: 标签（Label），表示函数入口地址，相当于 C 语言的函数名。用户态通过 call trace 调用。
li a7, SYS_trace 加载立即数（Load Immediate）：将 SYS_trace（系统调用号）存入寄存器 a7。 a7 用于传递系统调用号。
ecall 环境调用（Environment Call）：触发软中断，切换到内核态执行系统调用。 RISC-V 特权指令，依赖 a7 确定调用类型。
ret 返回（Return）：从函数返回到调用者（call 指令的下一条指令）。实际是 jalr x0, 0(ra) 的伪指令。
2. .s 文件是什么？文件类型：.s 是汇编代码文件（Assembly Source），包含直接用处理器指令编写的低级代码。

生成方式：

xv6 通过 Perl 脚本 user/usys.pl 动态生成 user/usys.S，避免手动编写重复的系统调用存根。

示例生成逻辑：

# user/usys.pl
print "trace:\n li a7, SYS_trace\n ecall\n ret\n";

编译过程：

汇编器（如 riscv64-linux-gnu-as）将 .s 文件编译为机器码（.o 目标文件）。

链接器将多个 .o 文件合并为最终的可执行文件。

为何需要汇编存根？
(1) 用户态到内核态的切换
ecall 指令：RISC-V 中唯一合法的特权指令，用于触发系统调用。

寄存器约定：

a7：存放系统调用号（如 SYS_trace=22）。

a0-a5：传递参数（trace 只有一个参数 mask，通过 a0 传递）。

(2) 对比 C 代码的局限性
C 无法直接内联 ecall 指令，必须通过汇编实现。

示例：若用 C 伪代码表示 trace()，实际无法编译：

void trace(int mask) {
    a7 = SYS_trace; // 无法直接操作寄存器
    ecall();        // C 无此语法
}

xv6 中的完整调用链以 trace(32) 为例：

用户态调用（user/trace.c）：

trace(32); // 调用汇编存根

汇编存根（user/usys.S）：

trace:
    li a7, SYS_trace  # a7 = 22
    mv a0, a0         # 第一个参数（mask=32）已在调用前存入 a0
    ecall             # 切换到内核态
    ret

内核处理（kernel/syscall.c）：

通过 scause 识别 ecall，调用 syscall()。

根据 a7=22 调用 sys_trace()。

RISC-V 汇编关键点概念说明寄存器 a0-a7 用于参数传递，a7 固定存放系统调用号。伪指令 li（加载立即数）、ret（返回）等是汇编器提供的简化写法。标签 trace: 定义符号地址，其他代码可通过 call trace 跳转。特权指令 ecall 是用户程序唯一能触发的特权指令，用于请求内核服务。
示例：查看生成的汇编代码编译 xv6 后，可检查 user/usys.S 文件内容：

cat user/usys.S

输出示例：

trace:
    li a7, SYS_trace
    ecall
    ret
fork:
    li a7, SYS_fork
    ecall
    ret

…
总结
.s 文件：是手写或脚本生成的汇编代码，直接对应处理器指令。

ecall 存根：用户态通过固定的汇编模板（li a7 + ecall）调用内核功能。

RISC-V 约定：参数通过寄存器传递，系统调用号必须存入 a7。

通过这种设计，xv6 实现了安全可控的用户态-内核态交互，同时保持代码的简洁性。

uint64 sys_trace(void) {
int mask;
argint(0, &mask); // 从用户态读取 mask=32
myproc()->trace_mask = mask; // 设置进程的 trace_mask
return 0;
} 这里的int mask和ao
uint64 sys_trace(void) {
int mask;
argint(0, &mask); // 从用户态读取 mask=32
myproc()->trace_mask = mask; // 设置进程的 trace_mask
return 0;
} 这里的int mask和a
uint64 sys_trace(void) {
int mask;
argint(0, &mask); // 从用户态读取 mask=32
myproc()->trace_mask = mask; // 设置进程的 trace_mask
return 0;
} 这里的int mask和a0的关系在 xv6 的系统调用实现中，int mask 和寄存器 a0 的关系是用户态参数通过寄存器传递到内核的桥梁。以下是详细分析：

参数传递流程
(1) 用户态调用 trace(mask)
C 代码调用（user/trace.c）：

trace(32);  // 参数 32 传递给 trace()

汇编存根处理（user/usys.S）：

trace:
    li a7, SYS_trace  # 系统调用号存入 a7
    mv a0, a0         # 第一个参数（mask=32）从 C 调用约定位置移动到 a0
    ecall             # 切换到内核态
    ret

关键点：

根据 RISC-V 调用约定，第一个整数参数通过 a0 传递。

mask=32 在用户态调用时已存入 a0，此处 mv a0, a0 看似冗余，但确保参数位置正确。

(2) 内核读取 a0 的值
sys_trace() 函数（kernel/sysproc.c）：

uint64 sys_trace(void) {
    int mask;
    argint(0, &mask);          // 从用户态 a0 读取 mask
    myproc()->trace_mask = mask; // 保存到当前进程
    return 0;
}

argint(0, &mask) 的作用：

第一个参数 0：表示从 a0 寄存器读取（0 是参数索引，对应 a0）。

&mask：将读取的值存入内核变量 mask。

argint() 的内部实现
(1) 函数定义（kernel/syscall.c）

int argint(int n, int *ip) {
    *ip = myproc()->trapframe->a0 + n * sizeof(uint64);
    return 0;
}

逻辑简化：

n=0 时，直接访问 trapframe->a0（存储用户态的 a0 寄存器值）。

将 a0 的值（即 32）写入 *ip（即 mask）。

(2) trapframe 的作用上下文保存：当用户态通过 ecall 进入内核时，所有用户寄存器（包括 a0）被保存到 trapframe 结构体中。

访问路径：

myproc()->trapframe->a0  // 获取用户态 a0 的值

数据流向图示图表代码
关键点总结概念说明
RISC-V 调用约定前 6 个整数参数通过 a0-a5 传递，a0 是第一个参数。
argint 的索引 argint(0, …) 对应 a0，argint(1, …) 对应 a1，依此类推。寄存器到变量用户态的 a0 → 内核的 trapframe->a0 → 通过 argint() 存入 mask。安全性 argint() 通过 trapframe 安全访问用户态参数，避免直接解引用。
示例验证若用户调用 trace(32)：

用户态：a0 = 32（通过 C 调用约定设置）。

内核态：

argint(0, &mask) 读取 trapframe->a0，得到 32。

mask 被赋值为 32，最终存入 trace_mask。

常见问题
Q：为什么不用 a0 直接赋值，而要调用 argint()？安全性：直接访问用户态寄存器可能引发安全问题（如寄存器未保存）。

抽象性：argint() 封装了参数读取逻辑，统一处理所有系统调用。

Q：argint(0, &mask) 的 0 是参数索引吗？是的，0 表示第一个参数（对应 a0），1 对应 a1，以此类推。xv6 通过索引映射到寄存器位置。

通过这种设计，xv6 实现了用户态参数到内核的安全、高效传递，同时保持了代码的清晰性和可维护性。

LOADING

mit-6s081-lab02-System_call_tracing

声明

过程

AI问答

问答