Linux多线程编程（10分钟入门）

如今，几乎所有的电脑（操作系统）都支持同时执行多个任务，比如一边用迅雷下载资源，一边听歌，一边用 QQ 和好友聊天，这样的执行方式简称“并发”或者“并行”。

并发和并行都指的是计算机可以同时执行多个任务，但严格来讲，它们是有区别的，只是本节不对它们做更细致的区分。

程序并行的常用实现方式有两种，分别叫做“多进程编程”和“多线程编程”。本节，我们教大家如何在 Linux 下进行多线程编程。

程序、进程和线程

学习多线程编程的实现方法之前，首先要搞清楚什么是线程，这就要从程序、进程和线程三者的关系和区别讲起。

大家常常编写程序，程序其实就是一系列指令（代码）的集合，我们通常将它编写在一个或者多个文件中。例如，C 语言程序通常编写在后缀名为 .c 的文件中，Python 程序编写在后缀名为 .py 的文件中，我们通常将存有程序的文件称为“源文件”。

程序以源文件的方式存储在外存（比如硬盘、U盘等）中，只有运行的时候才会被载入内存。对于支持并行的操作系统来说，必须为每一个运行的程序分配所需的资源（内存空间、输入输出设备等），并确保同时运行的程序之间不会相互干扰，为此，操作系统将每一个运行着的程序视为一个进程：

操作系统以进程为单位，为每个进程分配执行所需要的资源；
原则上，各个进程之间不允许访问对方的资源；
操作系统实时监控着每个进程的执行状态，必要时可以强制其终止执行。

也就是说在操作系统看来，每个载入内存执行的程序都是一个进程。操作系统以进程为单位分配资源，各个进程相互独立，执行过程互不干扰。

同一时间，操作系统可以运行多个应用程序（进程），每个应用程序（进程）还可以同时执行多个任务，例如迅雷支持同时下载多个文件，QQ 也支持同时和多个好友聊天。同一进程中，执行的每个任务都被视为一个线程。

线程和进程之间的关系，与工厂和工人之间的关系非常相似。一个进程好比是一座工厂，一个线程就如同这个工厂中的一个工人。工厂可以容纳多个工人，每个工人负责完成一项具体的任务。工厂负责为所有工人提供必要的资源（电力、产品原料、食堂、厕所等），所有工人共享这些资源。

也就是说，一个进程中可以包含多个线程，所有线程共享进程拥有的资源。当然，每个线程也可以拥有自己的私有资源。下图给您展示进程和线程之间的关系：

图 1 进程和线程的关系

如图 1 所示，所有线程共享的进程资源有：

代码：即应用程序的代码；
数据：包括全局变量、函数内的静态变量、堆空间的数据等；
进程空间：操作系统分配给进程的内存空间；
打开的文件：各个线程打开的文件资源，也可以为所有线程所共享，例如线程 A 打开的文件允许线程 B 进行读写操作。

各个线程也可以拥有自己的私有资源，包括寄存器中存储的数据、线程执行所需的局部变量（函数参数）等。

多线程编程的实现方法

了解了程序、进程和线程之间的关系后，多线程的含义就很容易理解了，它指的是一个进程中拥有多个（≥2）线程。通常，我们将编写多线程程序的过程称为“多线程编程”。

本文的目标立足于教会大家编写入门级别的多线程程序，有关线程同步、线程死锁、线程属性等内容，建议您转至《多线程编程（C语言+Linux）》专题做系统的学习。

Linux 上编写多线程程序，可以借助 <pthread.h> 头文件提供的一些函数，常用的函数有如下几个：

1) pthread_create()

pthread_create() 函数专门用来创建线程，语法格式如下：

int pthread_create(pthread_t *thread,
                   const pthread_attr_t *attr,
                   void *(*start_routine) (void *),
                   void *arg);

各个参数的含义是：

thread：接收一个 pthread_t 类型变量的地址，每个 pthread_t 类型的变量都可以表示一个线程。
attr：手动指定新线程的属性，我们可以将其置为 NULL，表示新建线程遵循默认属性。
start_routine：以函数指针的方式指明新建线程需要执行哪个函数。
arg：向 start_routinue() 函数的形参传递数据。将 arg 置为 NULL，表示不传递任何数据。

如果成功创建线程，pthread_create() 函数返回数字 0，否则返回一个非零值。各个非零值都对应着不同的宏，指明创建失败的原因，常见的宏有以下几种：

EAGAIN：系统资源不足，无法提供创建线程所需的资源。
EINVAL：传递给 pthread_create() 函数的 attr 参数无效。
EPERM：传递给 pthread_create() 函数的 attr 参数中，某些属性的设置为非法操作，程序没有相关的设置权限。

以上这些宏都定义在 <errno.h> 头文件中，如果想使用这些宏，需提前引入此头文件。

有关 pthread_create() 函数更详细的讲解，请阅读《创建线程》一文。

2) pthread_exit()

pthread_exit() 函数用于终止线程执行，语法格式如下：

void pthread_exit(void *retval);

retval 参数指向的数据将作为线程执行结束时的返回值，如果不需要返回任何数据，将其置为 NULL 即可。注意，retval 不能指向函数内部的局部变量，否则会导致程序运行出错甚至崩溃。

return 也可以终止线程执行，它和 pthread_exit() 之间有什么区别呢？我们已经在《终止线程（3种方法）》一文给出了答案。

3) pthread_cancel()

在多线程程序中，一个线程可以借助 pthread_cancel() 函数向另一个线程发送“终止执行”的信号。

pthread_cancel() 函数的语法格式如下：

int pthread_cancel(pthread_t thread);

thread 参数用于指定接收信号的目标线程。当成功发送“终止执行”的信号时，函数返回值为 0，否则返回非零数。

再次强调，pthread_cancel() 函数只是向目标线程发送“终止执行”的信息，至于目标线程是否接收此信号，以及何时终止执行，由目标线程说了算，我们会在《终止线程执行，千万别踩这个坑！》一文做详细了解。

4) pthread_join()

pthread_join() 函数的功能主要有两个，分别是：

接收目标线程执行结束时的返回值；
释放目标线程占用的进程资源。

pthead_join() 函数的语法格式如下：

int pthread_join(pthread_t thread, void ** retval);

thread 参数用于指定目标线程；retval 参数用于存储接收到的返回值。实际场景中，调用 pthread_join() 函数可能仅是为了及时释放目标线程占用的资源，并不想接收它的返回值，这种情况下可以将 retval 置为 NULL。

pthread_join() 函数会一直阻塞当前线程，直至目标线程执行结束，阻塞状态才会消除。如果成功等到了目标线程执行结束（成功获取到目标线程的返回值），pthread_join() 函数返回数字 0，否则返回非零数。

想全方位搞清楚 pthread_join() 函数的功能和用法，可阅读《获取线程函数的返回值》一文。

第一个多线程程序

接下来，我们利用上文学到的知识，编写第一个多线程程序：

#include <stdio.h>
#include <pthread.h>
//定义线程要执行的函数，arg 为接收线程传递过来的数据
void* Thread1(void* arg)
{
    printf("http://www.weixueyuan.net\n");
    return "Thread1成功执行";
}
//定义线程要执行的函数，arg 为接收线程传递过来的数据
void* Thread2(void* arg)
{
    printf("魏雪原\n");
    return "Thread2成功执行";
}

int main()
{
    int res;
    //创建两个线程变量 
    pthread_t mythread1, mythread2;
    void* thread_result;
    //创建 mythread1 线程，执行 Thread1() 函数
    res = pthread_create(&mythread1, NULL, Thread1, NULL);
    if (res != 0) {
        printf("线程创建失败");
        return 0;
    }
    //创建 mythread2 线程，执行 Thread2() 函数
    res = pthread_create(&mythread2, NULL, Thread2, NULL);
    if (res != 0) {
        printf("线程创建失败");
        return 0;
    }
    //阻塞主线程，直至 mythread1 线程执行结束，用 thread_result 指向接收到的返回值，阻塞状态才消除。
    res = pthread_join(mythread1, &thread_result);
    //输出线程执行完毕后返回的数据
    printf("%s\n", (char*)thread_result);
    //阻塞主线程，直至 mythread2 线程执行结束，用 thread_result 指向接收到的返回值，阻塞状态才消除。
    res = pthread_join(mythread2, &thread_result);
    printf("%s\n", (char*)thread_result);
    printf("主线程执行完毕");
    return 0;
}

程序中共有 3 个线程，分别是主线程，mythread1 线程和 mythread2 线程。mythread1 线程负责执行 Thread1() 函数，mythread2 线程负责执行 Thread2() 函数。

主线程先后调用了两次 pthread_join() 函数，都会阻塞主线程，直至 mythread1 和 mythread2 线程执行完毕，阻塞状态才会消除。

假设程序存储在 thread.c 文件中，调用 GCC 编译此程序：

[root@localhost ~]# gcc thread.c -o thread.exe -lpthread

最终会生成一个名为 thread.exe 的可执行文件，执行如下命令即可看到执行结果：

[root@localhost ~]# ./thead.exe
http:www.weixueyuan.net
魏雪原
Thread1成功执行
Thread2成功执行
主线程执行完毕

总结

本节，我们了解了程序、进程和线程三者之间的关系，学会了如何编写一个简单的多线程程序。

但是，与多线程编程相关的知识还有很多，比如实现线程同步，解决线程死锁问题、自定义线程的属性等，这些知识我们会在《多线程编程（C语言+Linux）》专题中给大家做详细的讲解。