读[Build Your Own Async]有感

Build Your Own Async是David Beazley发布在YouTube上的一个Workshop视频。讲述了一些的Python的Async机制。看完之后有感而发，写了这篇文章。

一个程序按顺序一步接着一步执行，这叫同步执行。但是执行某一步的时候，如果所需要的条件还没有满足，那么程序就需要等待，知道条件满足位置。一个例子是程序从网络接收数据，如果数据没有到来，那么程序就必须等待。

通常情况下，程序的等待是由操作系统来帮助完成的。程序请求网络数据的操作需要经过操作系统，当操作系统发现网络数据还没有到来的时候，就把程序挂起。当所需数据来临的时候，才又把程序恢复执行。

举一个不那么恰当的比方。如果把程序请求网络数据比作一个人上农户家取牛奶。这个人到农户家的时候，牛奶可能还没挤好。为了不让取牛奶的人着急，农户先让来人喝完水。水中含有蒙汗药，喝完人就晕倒。当农户挤完奶之后，就喂给来人解药，把他唤醒，再把牛奶给他。取牛奶的人压根不知道自己晕倒过，于是带着牛奶高高兴兴回家了。

这种让操作系统帮忙等待的案例会造成一些问题，在恢复和挂起这两个操作本身浪费操作时间不说，程序可能并不太想被操作系统挂起，因为如果等待不到网络数据的话，完全还可以利用这段时间来干别的事情。也就是说应用程序可以有很多并发操作。

一个用来解释并发操作的比喻。一个人虽然没有三头六臂，但是也可以同时跟很多人下棋，在每个棋局中下完一步，趁对手还在思考的时候，换到另一个棋局跟另外一个人下。如此循环反复，只要这个人足够聪明，下手够快，就完全应付得过来。

当然，动不动就把程序挂起，操作系统也说不过去。所以操作系统提供的解决方案是采用线程来支持并发。一个程序可以有多个线程，某个线程被挂起，其他线程还可以继续执行。至于怎么在线程之间协调，这个包袱也就落到了程序之上。也就是说操作系统让程序真的长出了三头六臂。至于这三个头听哪个头的，要往哪里去，操作系统完全不管。

但是问题还是没有解决，三头六臂未必够，如果需要的是千手观音呢？如果并发数目一多，线程可能也应付不过来，线程间的切换开销也会陡增。因为程序不能光靠自己来进行线程切换，而是必须经过操作系统。

接下来这个问题就呼之欲出了：能不能让程序自身来协调呢？答案肯定是可以的，就像Erlang那样，在一个操作系统线程内搞出多个轻量级进程，然后自己进行上下文切换。如果处理器有多个处理核心的话，Erlang还可以通过多线程来并发调度。

上面举的Erlang的例子显然很特殊。并不是所有的编程语言都像Erlang这样特立独行，自成一派。大部分编程语言都是工作在操作系统提供的共享内存机制之下，饱受线程间同步的煎熬。

为了简化对并发的处理，多线程编程往往采用这样一种模型，一个线程作为主控线程，其他线程作为工作线程。主控线程把任务分配给工作线程，等待工作线程完成后，再把结果返回给主控线程。在这种情况下，结果的返回是异步的，主控线程并不能里面获得结果。只有当工作线程完成后，通过回调或者是发送消息的方式来把结果告知主控线程。

主控线程所期待的结果需要在未来的某个时候返回。很多编程语言里面都引入了一种叫future的概念来表示这种未来某个时候才能获取的结果。中文的话，或许可以把future翻译成候缺。

有了工作线程的帮助，主控线程可以将那些阻塞的操作分配给工作线程。这样其实主线程就很有多空余时间来响应外部事件，从而达到更大的并发度。一个例子是GUI程序，其主事件循环跑在主控线程上，然后遇到阻塞的或者耗时的操作，就把这些甩给工作线程。以此来保证主动线程的空闲，以便能够在需要的时候更快响应外部事件，包括用户操作，达到更好的体验。

主控线程接下来会遇到的问题是，如何让提供一个更好的编程模型，来支持异步操作，从而达到更大的并发度。C语言中，异步操作只能通过回调函数来执行。也就是提供一个回调函数的入口，然后在条件满足的时候，调用这个入口。

大量使用回调的话会使程序变得难以追踪，并且难以理解，给编写和阅读程序的人带来困难。或许原因是人脑的并发度是有限的，无法记忆并处理大量的未完成的任务。在Build Your Own Async视频中，作者最早举的例子就是使用回调来进行并发。回调的管理是通过一个队列来进行的。回调的执行以及结果的获取需要一个调度器来协调。·

为什么回调不讨人喜欢，举一个例子你就明白了。假设你组织一些人一起工作，给他们分配任务。但是这些人领完任务之后就蒙头进行，在他们获得结果之前你获得不了任何反馈，也无法从中干预，大部分时候只能干着急。回到编程语言上，回调是一个函数，获取输入并产生输出，调用之后就无法控制其执行过程，只能等待结果，而且结果有可能成功，也有可能失败。

更糟糕的是，不同的回调之间如果需要通信的话就很难协调。如果他们之间需要发数据，那么需要调度器来提供一些协调机制。但是对于异常错误处理的话，可能调度器就没办法了。异常通常需要在更高层级进行协调解决。但是回调之间并没有明显的层级关系。

有什么解决办法？我们可以继续扩展前面的例子来探讨一种可能性。作为组织者，当你把工作分配之后，如果能够在任务进行的过程中设置一些例会进行协调，那么就有可能更早发现问题，更早重新调整优先级和依赖关系，更好推进工作。这个例子比较接近现实生活中的场景。

如果以这个眼光来看传统的函数，其问题是无法对其执行进行干预（在内核级别可以，但是程序自身不行）。如果有一种办法可以对函数的执行进行干预，比如在函数执行过程中可以将其暂停，然后提供一定的通信协调机制，在函数恢复执行的时候根据协调的结果决定下一步的走向。这样这些可被暂停的函数间就可以有更好的通信。就像上面举的例子，组织者通过例会来协调工作进度，而不是苦苦等待任务执行者来返回结果。

越来越多的语言提供了一种机制，叫做coroutine，中文管它叫做协程，来对函数的执行进行干预。协程有普通函数的样子，写起来比回调要直观。但是可以中断执行，并且随后可以恢复。在中断和回复之间，可以进行任务的协调。协程和协程之间可以互相调用，因为存在这种调用的上下级关系，对于异常处理也会比回调要更加直观一点。Build Your Own Async的作者自己还创作了一个协程库，叫做Curio，来说明他心中理想的协程库是什么样子的。Curio是基于队列的，而Python自带的AsyncIO是基于事件循环的。但不管队列也好，还是事件循环也好，都是调度的手段，核心思想没有太大差异。

Python还有另外一款协程库：[Trio]，据说是受到Curio启发的。What is the core difference between asyncio and trio?对比了AsyncIO和Trio。Trio的作者Nathaniel J. Smith在自己的博客njs blog也对Trio的设计思考做了很多的分享。

（本篇完）