当前位置:编程学习 > php >>

深入研究PHP及Zend Engine的线程安全模型

 

在阅读PHP源码和学习PHP扩展开发的过程中,我接触到大量含有“TSRM”字眼的宏。通过查阅资料,知道这些宏与Zend的线程安全机制有关,而绝大多数资料中都建议按照既定规则使用这些宏就可以,而没有说明这些宏的具体作用。不知道怎么回事总是令人不舒服的,因此我通过阅读源码和查阅有限的资料简要了解一下相关机制,本文是我对研究内容的总结。 本文首先解释了线程安全的概念及PHP中线程安全的背景,然后详细研究了PHP的线程安全机制ZTS(Zend Thread Safety)及具体的实现TSRM,研究内容包括相关数据结构、实现细节及运行机制,最后研究了Zend对于单线程和多线程环境的选择性编译问题。

 

线程安全

线程安全问题,一言以蔽之就是多线程环境下如何安全存取公共资源。我们知道,每个线程只拥有一个私有栈,共享所属进程的堆。在C中,当一个变量被声明在任何函数之外时,就成为一个全局变量,这时这个变量会被分配到进程的共享存储空间,不同线程都引用同一个地址空间,因此一个线程如果修改了这个变量,就会影响到全部线程。这看似为线程共享数据提供了便利,但是PHP往往是每个线程处理一个请求,因此希望每个线程拥有一个全局变量的副本,而不希望请求间相互干扰。 早期的PHP往往用于单线程环境,每个进程只启动一个线程,因此不存在线程安全问题。后来出现了多线程环境下使用PHP的场景,因此Zend引入了Zend线程安全机制(Zend Thread Safety,简称ZTS)用于保证线程的安全。

 

ZTS的基本原理及实现

基本思想

说起来ZTS的基本思想是很直观的,不是就是需要每个全局变量在每个线程都拥有一个副本吗?那我就提供这样的机制: 在多线程环境下,申请全局变量不再是简单声明一个变量,而是整个进程在堆上分配一块内存空间用作“线程全局变量池”,在进程启动时初始化这个内存池,每当有线程需要申请全局变量时,通过相应方法调用TSRM(Thread Safe Resource Manager,ZTS的具体实现)并传递必要的参数(如变量大小等等),TSRM负责在内存池中分配相应内存区块并将这块内存的引用标识返回,这样下次这个线程需要读写此变量时,就可以通过将唯一的引用标识传递给TSRM,TSRM将负责真正的读写操作。这样就实现了线程安全的全局变量。下图给出了ZTS原理的示意图:

 

 

Thread1和Thread2同属一个进程,其中各自需要一个全局变量Global Var,TSRM为两者在线程全局内存池中(黄色部分)各自分配了一个区域,并且通过唯一的ID进行标识,这样两个线程就可以通过TSRM存取自己的变量而互不干扰。 下面通过具体的代码片段看一下Zend具体是如何实现这个机制的。这里我用的是PHP5.3.8的源码。TSRM的实现代码在PHP源码的“TSRM”目录下。

 

数据结构

TSRM中比较重要的数据结构有两个:tsrm_tls_entry和tsrm_resource_type。下面先看tsrm_tls_entry。tsrm_tls_entry定义在TSRM/TSRM.c中:

 

1 typedef struct _tsrm_tls_entry tsrm_tls_entry; 

 

2   

 

3 struct _tsrm_tls_entry { 

 

4     void **storage; 

 

5     int count; 

 

6     THREAD_T thread_id; 

 

7     tsrm_tls_entry *next; 

 

8 }

 

每个tsrm_tls_entry结构负责表示一个线程的所有全局变量资源,其中thread_id存储线程ID,count记录全局变量数,next指向下一个节点。storage可以看做指针数组,其中每个元素是一个指向本节点代表线程的一个全局变量。最终各个线程的tsrm_tls_entry被组成一个链表结构,并将链表头指针赋值给一个全局静态变量tsrm_tls_table。注意,因为tsrm_tls_table是一个货真价实的全局变量,所以所有线程会共享这个变量,这就实现了线程间的内存管理一致性。tsrm_tls_entry和tsrm_tls_table结构的示意图如下:

 

 

tsrm_resource_type的内部结构相对简单一些:

 

1 typedef struct { 

 

2     size_t size; 

 

3     ts_allocate_ctor ctor; 

 

4     ts_allocate_dtor dtor; 

 

5     int done; 

 

6 } tsrm_resource_type;

 

上文说过tsrm_tls_entry是以线程为单位的(每个线程一个节点),而tsrm_resource_type以资源(或者说全局变量)为单位,每次一个新的资源被分配时,就会创建一个tsrm_resource_type。所有tsrm_resource_type以数组(线性表)的方式组成tsrm_resource_table,其下标就是这个资源的ID。每个tsrm_resource_type存储了此资源的大小和构造、析构方法指针。某种程度上,tsrm_resource_table可以看做是一个哈希表,key是资源ID,value是tsrm_resource_type结构。

 

实现细节

这一小节分析TSRM一些算法的实现细节。因为整个TSRM涉及代码比较多,这里拣其中具有代表性的两个函数分析。 第一个值得注意的是tsrm_startup函数,这个函数在进程起始阶段被sapi调用,用于初始化TSRM的环境。由于tsrm_startup略长,这里摘录出我认为应该注意的地方:

 

01 /* Startup TSRM (call once for the entire process) */

 

02 TSRM_API int tsrm_startup(int expected_threads, int expected_resources, int debug_level, char *debug_filename) 

 

03 { 

 

04     /* code... */

 

05   

 

06     tsrm_tls_table_size = expected_threads; 

 

07   

 

08     tsrm_tls_table = (tsrm_tls_entry **) calloc(tsrm_tls_table_size, sizeof(tsrm_tls_entry *)); 

 

09     if (!tsrm_tls_table) { 

 

10         TSRM_ERROR((TSRM_ERROR_LEVEL_ERROR, "Unable to allocate TLS table")); 

 

11         return 0; 

 

12     } 

 

13     id_count=0; 

 

14   

 

15     resource_types_table_size = expected_resources; 

 

16     resource_types_table = (tsrm_resource_type *) calloc(resource_types_table_size, sizeof(tsrm_resource_type)); 

 

17     if (!resource_types_table) { 

 

18         TSRM_ERROR((TSRM_ERROR_LEVEL_ERROR, "Unable to allocate resource types table")); 

 

19         free(tsrm_tls_table); 

 

20         tsrm_tls_table = NULL; 

 

21         return 0; 

 

22     } 

 

23   

 

24     /* code... */

 

25   

 

26     return 1; 

 

27 }

 

其实tsrm_startup的主要任务就是初始化上文提到的两个数据结构。第一个比较有意思的是它的前两个参数:expected_threads和expected_resources。这两个参数由sapi传入,表示预计的线程数和资源数,可以看到tsrm_startup会按照这两个参数预先分配空间(通过calloc)。因此TSRM会首先分配可容纳expected_threads个线程和expected_resources个资源的。要看各个sapi默认会传入什么,可以看各个sapi的源码(在sapi目录下),我简单看了一下:

 

 

可以看到比较常用的sapi如mod_php5、php-fpm和cgi都是预分配一个线程和一个资源,这样是因为不愿浪费内存空间,而且多数情况下PHP还是运行于单线程环境。 这里还可以看到一个id_count变量,这个变量是一个全局静态变量,其作用就是通过自增产生资源ID,这个变量在这里被初始化为0。所以TSRM产生资源ID的方式非常简单:就是一个整

补充:综合编程 , 安全编程 ,
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,