Linux平台上常见的拦截过滤：用户态动态库拦截

背景

前段时间，我们的项目组在帮顾客解决一些操作系统安全领域的问题，涉及到windows，Linux，macOS三大操作系统平台。无论哪些操作系统，本质上都是一个软件node.js安装linux，任何软件在一开始设计的时侯，都不能百分之百的满足人们的需求，所以操作系统也是一样，为了尽可能的满足人们需求，不得不提供一些供人们订制操作系统的机制。其实不仅官方提供的一些机制，也有一些黑魔法，这种黑魔法不被推荐使用，而且有时侯面对具体的业务场景，可以作为一个参考的思路。

Linux中常见的拦截过滤

本文侧重介绍Linux平台上常见的拦截：

用户态动态库拦截。

内核态系统调用拦截。

堆栈式文件系统拦截。

inlinehook拦截。

LSM(LinuxSecurityModules)

动态库绑架

Linux上的动态库绑架主要是基于LD_PRELOAD环境变量，这个环境变量的主要作用是改变动态库的加载次序，让用户有选择的载入不同动态库中的相同函数。并且使用不当都会造成严重的安全问题，我们可以通过它在主程序和动态联接库中加载别的动态函数，这就给我们提供了一个机会，向他人的程序注入恶意的代码。

假定有以下用户名密码验证的函数：

#include 
#include 
#include 
int main(int argc, char **argv)
{
char passwd[] = "password";
if (argc < 2) {
printf("Invalid argc!n");
return;
}
if (!strcmp(passwd, argv[1])) {
printf("Correct Password!n");
return;
}
printf("Invalid Password!n");
}

我们再写一段hookStrcmp的程序，让这个比较永远正确。

linux内核函数d_add_调用linux内核函数_linux内核函数

#include 
int strcmp(const char *s1, const char *s2)
{
/* 永远返回0，表示两个字符串相等 */
return 0;
}

依次执行以下命令，都会使我们的hook程序先执行。

gcc -Wall -fPIC -shared -o hookStrcmp.so hookStrcmp.c
export LD_PRELOAD=”./hookStrcmp.so”

结果会发觉，我们自己写的strcmp函数优先被调用了。这是一个最简单的绑架，而且假如绑架了类似于geteuid/getuid/getgid，让其返回0，就相当于曝露了root权限。所以为了安全起见，通常将LD_PRELOAD环境变量禁用掉。

Linux系统调用绑架

近来发觉在4.4.0的内核中有513多个系统调用(好多都没用过)，系统调用绑架的目的是改变系统中原有的系统调用，用我们自己的程序替换原有的系统调用。Linux内核中所有的系统调用都是置于一个称作sys_call_table的内核字段中，字段的值就表示这个系统调用服务程序的入口地址。整个系统调用的流程如下：

当用户态发起一个系统调用时，会通过80软中断步入到syscallhander，因而步入全局的系统调用表sys_call_table去查找具体的系统调用，这么假如我们将这个字段中的地址改成我们自己的程序地址，就可以实现系统调用胁持。而且内核为了安全，对这些操作做了一些限制：

sys_call_table的符号没有导入，不能直接获取。

sys_call_table所在的显存页是只读属性的，难以直接进行更改。

对于以上两个问题，解决方案如下（方式不止一种）：

获取sys_call_table的地址：grepsys_call_table/boot/System.map-uname-r

控制页表只读属性是由CR0寄存器的WP位控制的，只要将这个位清零就可以对只读页表进行更改。

/* make the page writable */
int make_rw(unsigned long address)
{
unsigned int level;
pte_t *pte = lookup_address(address, &level);//查找虚拟地址所在的页表地址
pte->pte |= _PAGE_RW;//设置页表读写属性
return 0;
}

/* make the page write protected */
int make_ro(unsigned long address)
{
unsigned int level;
pte_t *pte = lookup_address(address, &level);
pte->pte &= ~_PAGE_RW;//设置只读属性
return 0;
}

开始替换系统调用

本文实现的是对ls这个命令对应的系统调用，系统调用号是__NR_getdents。

static int syscall_init_module(void)
{
orig_getdents = sys_call_table[__NR_getdents];
make_rw((unsigned long)sys_call_table); //修改页属性
sys_call_table[__NR_getdents] = (unsigned long *)hacked_getdents; //设置新的系统调用地址
make_ro((unsigned long)sys_call_table);
return 0;
}

恢复原状

static void syscall_cleanup_module(void)
{
printk(KERN_ALERT "Module syscall unloaded.n");
make_rw((unsigned long)sys_call_table);
sys_call_table[__NR_getdents] = (unsigned long *)orig_getdents;
make_ro((unsigned long)sys_call_table);
}

使用Makefile编译，insmod插入内核模块后，再执行ls时，才会步入到我们的系统调用red hat linux，我们可以在hook代码中删除个别文件，ls就不会显示这种文件，并且这种文件还是存在的。

堆栈式文件系统

Linux通过vfs虚拟文件系统来统一具象具体的c盘文件系统，从上到下的IO栈产生了一个堆栈式。通过对内核源码的剖析，以一次读操作为例，从上到下所执行的流程如下：

内核中采用了好多c语言方式的面向对象，也就是函数表针的方式，比如read是vfs提供用户的插口，具体底上调用的是ext2的read操作。我们只要实现VFS提供的各类插口，就可以实现一个堆栈式文件系统。Linux内核中早已集成了一些堆栈式文件系统，比如Ubuntu在安装时会提醒你是否须要加密home目录，虽然就是一个堆栈式的加密文件系统（eCryptfs），原理如下：

实现了一个堆栈式文件系统，相当于所有的读写操作还会步入到我们的文件系统，可以领到所有的数据，就可以进行做一些拦截过滤。

以下是我实现的一个最简单的堆栈式文件系统，实现了最简单的打开、读写文件，麻雀虽小但脏腑俱全。

inlinehook

我们晓得内核中的函数不可能把所有功能都在这个函数中全部实现，它必将要调用它的上层函数。假如这个上层函数可以得到我们想要的过滤信息内容，就可以把上层函数在下层函数中的offset替换成新的函数的offset，这样下层函数调用上层函数时，才会跳到新的函数中，在新的函数中做过滤和绑架内容的工作。所以从原理上来说，inlinehook可以想hook那里就hook那里。

inlinehook有两个重要的问题：

怎样定位hook点。

怎样注入hook函数入口。

对于第一个问题:

须要有一点的内核源码经验，例如说对于read操作，源码如下：

调用linux内核函数_linux内核函数_linux内核函数d_add

在这儿当发起read系统调用后，才会步入到sys_read,在sys_read中会调用vfs_read函数，在vfs_read的参数中恰好有我们须要过滤的信息，这么就可以把vfs_read当作一个hook点。

对于第二个问题:

怎样Hook？这儿介绍两种形式：

第一种方法：直接进行二补码替换，将call指令的操作数替换为hook函数的地址。

linux内核函数d_add_linux内核函数_调用linux内核函数

第二种方法：Linux内核提供的kprobes机制。

其原理是在hook点注入int3(x86)的机器码，让cpu运行到这儿的时侯会触发sig_trap讯号，之后将用户自定义的hook函数注入到sig_trap的反弹函数中，达到触发hook函数的目的。这个似乎也是调试器的原理。

LSM

LSM是LinuxSecrityModule的简称，即linux安全模块。是一种通用的Linux安全框架，具有效率高，简单易用等特征。原理如下：

LSM在内核中做了以下工作：

在特定的内核数据结构中加入安全域。

在内核源代码中不同的关键点插入对安全钩子函数的调用。

加入一个通用的安全系统调用。

提供了函数容许内核模块注册为安全模块或则注销。

将capabilities逻辑的大部份移植为一个可选的安全模块,具有可扩充性。

适用场景

对于以上几种Hook形式，有其不同的应用场景。

动态库绑架不太完全，绑架的信息有可能满足不了我们的需求，还有可能他人在你之前绑架了，一旦禁用LD_PRELOAD就失效了。

系统调用绑架，绑架的信息有可能满足不了我们的需求，比如不能获取structfile结构体调用linux内核函数，不能获取文件的绝对路径等。

堆栈式文件系统，依赖于Mount,可能须要重启系统。

inlinehook，灵活性高，随便Hook，即时生效无需重启，并且在不同内核版本之间通用性差，一旦个别函数发生了变化，Hook失效。

LSM，在初期的内核中，只能容许一个LSM内核模块加载，比如加载了SELinux，就不能加载其他的LSM模块，在最新的内核版本中不存在这个问题。

总结

篇幅有限，本文只是介绍了Linux上的拦截技术，后续有机会可以一起阐述windows和macOS上的拦截技术。事实上类似的审计HOOK放在任何一个系统中都是刚需，不只是kernel，我们可以看见越来越多的vm和runtime甚至包括好多web组件、前端应用都提供了更灵活的hook形式调用linux内核函数，这是透明化和实时性两个安全大趋势下最常见的解决方案。

本作品采用知识共享署名 4.0 国际许可协议进行许可