《Theory and Use of the EM Algorithm》

发布时间：2017-12-18浏览次数：156

作者：Maya R. Gupta, Yihua Chen

出版商：now publishers Inc (2011年3月19日)

索书号：O211.67 /G977 /E

书评人：宋力强，复旦大学数学科学学院

概率论与数理统计是数学的一个有特色且又十分活跃的分支，已广泛应用于工业、农业、军事和科学技术中，如预测和滤波应用于空间技术和自动控制，时间序列分析应用于石油勘测和经济管理，马尔科夫过程与点过程统计分析应用于地震预测等。小编不止一次提到，在数学院，这个学科一直是就业前景最好的，小编不得不偷偷学习一点他们的知识。说不定小编还不如大家呢，毕竟我才是刚上手。欢迎大家批评指正！我们还是先来介绍一下作者。

小编已经跌破眼镜了！Maya R. Gupta 是Google公司Glassbox机器学习研发团队的领队，同时也是木质拼图玩具工艺品公司的首席执行官，还是华盛顿大学的副教授。她于1997年在美国莱斯大学获得经济学学士学位，1999年在斯坦福大学获得电气工程学士学位，同年在斯坦福大学获得同专业博士学位！年幼时，她曾在顶级全国女生数学竞赛中得到华盛顿州第一的好成绩。曾获得过国家科学基金会研究生奖学金、PECASE奖等多项奖项。发表过多本书籍和文章。彪悍的人生！小编膜拜不已！

对于Yihua Chen，小编只能跟各位说对不起了，网上并没有找到这位作者的资料，初步估计这是个华人！曾经或者还在华盛顿大学读书或者任教！

本书介绍了期望最大化（EM）算法，并且提供了此算法的直观的、数学上严格的解释说明。作者详细阐述了EM算法最流行的两种应用：估计高斯混合模型（GMMS）和隐马尔科夫模型（HMMs）。同时，本书还介绍了利用EM模型来学习混合模型的最优组合，估计复合狄利克雷分布的参数，分离叠加的信号。本书中讨论的问题来自于EM算法在现实生活中的应用，同时本书还介绍了EM算法的几种变形。本书中对于EM算法的理论介绍，不管是对初次接触EM算法的读者，还是经验丰富的EM算法使用者，都会非常有帮助。小编已经这样了，大家要挺住啊！

本书第一章简单介绍了EM方法，EM方法是期望最大化（Expectation Maximization）的缩写形式。在统计计算中，最大期望算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据聚类领域。我们用书中的一个例子解释一下这一段抽象的文字。现在考虑窗外一天24小时温度的变化，一天的温度可以用一个24维的向量表示，我们知道这个温度是跟季节{春天，夏天，秋天，冬天}有关的。假设我们现在知道每个季节温度的分布，

如果我们只能测量某一天的平均温度,怎样估计现在是什么季节呢？对于这个问题，我们可以最大化的似然函数，也就是寻找最大化函数的。如果这不是一个平常的最大化似然函数的问题，我们就可以利用EM算法了，EM算法在迭代过程中，一边猜测全部可能的，一边估计最大参数。通过上述例子，我们可以将EM算法总结为：首先初始化分布参数，然后重复下面的步骤直至收敛，E-步骤：估计未知参数的期望值，给出当前的参数估计，即计算条件期望log-似然，它又被称为Q-函数；M-步骤：重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。是不是从现实生活中的实例来看，就容易理解多了！

细心的读者一定发现了，我们上面提到重复步骤直至收敛，那么这里就有问题了，EM算法会不会收敛呢？收敛时对最大似然函数的估计精不精确呢？估计出来的Q-函数与真实的log-似然之间又相差了多少呢？这就涉及到第二章的知识点EM算法分析。在第二章，作者给出了EM算法的收敛性分析，并且证明了Q-函数是真实的log-似然的一个下界。同时在这一章，作者还给我们EM算法的max-max实现。关于收敛性是怎么证明的，小编就不赘述了，有兴趣的读者还是自己研读吧，毕竟小编也不能把书上的公式全罗列在这里。

一定又有读者问小编了，这么抽象的EM算法到底有什么用呢？不要心急，本书的第三章就是讲述EM算法的两个非常重要的应用。作者先给我们讲述了一个简单的应用，学习固定混合模型的最优混合，接下来讲述学习高斯混合模型，最后，讲述更为复杂的有约束的高斯混合模型。高斯模型就是用高斯概率密度函数，也就是我们常说的正态分布曲线精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型。我们再给出一个简单的例子。

假设我们有n个向量，它们是独立同分布的（i.i.d.）高斯随机向量，现在我们需要知道k个高斯随机向量的均值和方差。但是很遗憾的是，我们并不知道某一固定的向量来自于哪个高斯分布。我们需要估计k个均值，k个协方差矩阵和k个权重，属于哪个高斯分布的可能性越大，权重就越大。接下来就可以利用EM算法来估计参数了。

EM算法的应用远远不止我们上面提到的这些，它还可以用来学习隐马尔科夫模型，估计混合狄利克雷分布。读者一定会问小编了，这个算法这么好，就没有什么缺点吗？任何事物都不是完美的，EM算法也一样，作者在书的最后一章提到EM算法有可能找不到全局最优解，有时也不能简化计算。关于本书的内容小编就介绍到这里，文中可能有一些专业术语翻译不准确，还请大家能原谅并且批评指出。

大家不难发现本书最大的特点就是全书专注一个问题-----EM算法，先为我们讲述了什么是EM算法，并给出具体的算法形式。紧接着作者给出了算法的收敛性分析。然后作者用两章内容介绍了EM算法的应用，让我们知道研究这个算法并不是徒劳无功的。最后提出EM算法的不足之处，不自夸，能一分为二的看待问题，结构十分严谨。也为大家提供了一个新的研究方向。仔细研读本书，感觉特别像一篇论文，小编分析，本书就是一篇论文，由于太经典就直接当做书籍出版了。这样的行文方式不但可以将一个问题讲透彻，同时可以给我们提供一个规范的论文写作模板。如果论文不知如何下笔，不妨仔细阅读一下本书，一定会有不少收获。

本书第二个特点是书中运用了现实生活中的实例来解释抽象的数学问题。例如在本书的第一章，作者在引入EM算法的时候，就举了现实生活中温度估计的例子，生动形象，便于读者理解抽象的数学概念。除此之外，作者也会用简单的计算过程来说明模型具体是怎样发挥作用的。作者如此贴心的设计，使得本书轻松易懂，结合文中的例子，数学概念记得更牢固。

作为优化方向的学生，小编一直以为自己再也不用学概率论了，这门课程是小编本科学得最差的，因此本科一毕业，小编就将所有的概率论的书籍换辣条吃了。没想到概率论的知识应用如此广泛，小编现在要从零开始学习。如果你不信，请看下本书，看看概率论的知识是怎么运用在优化中的！

章节目录

第一章期望最大化方法

1.1 EM（期望最大化）算法

1.2 EM与其简单形式的对比

1.3 在EM算法中使用先验概率

1.4 指定完整的数据

1.5 一个玩具的例子

第二章 EM算法分析

2.1 收敛性

2.2 最大化-最大化

第三章混合学习算法

3.1学习固定模型的最优混合

3.2 学习高斯混合模型

3.3 估计一个有约束的高斯混合模型

第四章其他EM的例子

4.1 学习一个隐马尔科夫模型

4.2 多传送机的位置估计

4.3 估计复合狄利克雷分布

第五章 EM 的变形

5.1 EM 有可能找不到全局最优解

5.2 EM 可能不能简化计算

5.3 速度

5.4 什么时候最大化似然函数不是目标

第六章结论和符号

致谢

参考文献