20年前的吴恩达，藏在一个数据集里

阅读 · 发布日期 2018-11-12 · 金人网络

青涩の安德鲁。

20年前的吴恩达，藏在一个数据集里

快看看这是谁？！

如果你真没认出来，那我们公布答案：

青涩の安德鲁。

今天这张照片火了。连正主吴恩达都在推特上转发了这张黑白照片。吴恩达回忆说，这张照片拍摄于大概20年前~

20年前的吴恩达，藏在一个数据集里

这其实不是一张普通的照片。

早在一个月前，一位研究机器学习和AI的教授Ricardo Araujo，在备课研究一个数据集时，发现了藏在数据集里的吴恩达照片。

这个数据集就是CMU Face Images。

诞生于1997年的这套数据集，其中包括640张人脸黑白照片，包括多个不同维度。吴恩达只是其中一个“模特”。

20年前的吴恩达，藏在一个数据集里

为了仔细观摩吴恩达在人工智能历史进程中的一点微小贡献，量子位赶紧下载了这个数据集，其中有上百张各种吴恩达的青涩照。

我们还做成了动图，一起来看下。

预备备，五、六、七，走……

普通的：

20年前的吴恩达，藏在一个数据集里

生气的（标注了angry，但看不太出来）：

20年前的吴恩达，藏在一个数据集里

戴墨镜的：

20年前的吴恩达，藏在一个数据集里

1997年，吴恩达刚刚在CMU获得计算机学士学位。随后一年，他在MIT获得硕士学位。2002年，吴恩达在伯克利获得博士学位。

随后，吴恩达加入斯坦福大学，逐渐成为人工智能领域影响力最大的老师之一。2011年他加入Google，创办谷歌大脑和深度学习项目。2014年，他加入百度出任首席科学家。2017年，吴恩达离职创业。

数据集的贡献

虽然在现在看来，这个数据集有点“粗糙”，但在当时，已经是非常珍贵的一份机器学习资源了。

根据维基百科的介绍，这是最早能够应用到机器学习中的数据集之一。

这个数据集的作者，是CMU的教授Tom Mitchell，被誉为“机器学习教父”，李开复、陆奇都是他的学生。

在制作这份数据集的时候，他就已经是CMU的教授了。

20年前的吴恩达，藏在一个数据集里

数据集被制作出来的那一年，也就是1997年，他出版了一本教材，名字叫做《机器学习》（Machine Learning），被称为是机器学习领域的奠基之作、第一代机器学习的圣经、入门机器学习的必读教材之一。

这本书的中文版在2008年出版。

数据集，也自然被放到了其中，作为教材中的一个案例，供大家参考学习。

20年前的吴恩达，藏在一个数据集里

1999年，Mitchell成为 CMU 的 E. Fredkin 教授。2006年，在CMU计算机科学学院成立机器学习系，并担任系主任。

2009年，被授予CMU 的最高教职University Professor职位，2010年入选美国工程院院士，2016 年当选美国人文与科学院（AAAS）院士。

在计算机科学领域，Mitchell教授发表了130多篇论文，其中不乏《Science》、《Nature 》等世界顶级学术期刊。

2018年10月，Mitchell教授被任命为CMU计算机科学学院的临时院长。

此外，根据数据集介绍页面，这份数据集被两篇论文直接引用了，而且这两篇论文都非常厉害。

20年前的吴恩达，藏在一个数据集里

其中一篇论文，是在2000年发表的。作者之一就是吴恩达的导师，迈克尔·乔丹。

20年前的吴恩达，藏在一个数据集里

这篇论文，他们提出了在最大似然和贝叶斯框架下学习混合树模型的有效算法。并利用数据集进行了验证。

另外一篇论文，2003年被NIPS收录，正式发表于2004年，第一作者是前滴滴研究院院长、飞步科技的创始人何晓飞。

20年前的吴恩达，藏在一个数据集里

在这篇论文中，他们提出了保局投影（LPP）的算法，并利用数据集进行了证明。被引用了4000多次。这也是最早中标NIPS的中国籍学者论文。

但是，量子位仔细研究后发现，这两篇论文虽然使用了人脸数据，但跟这份数据集并没有关系……

不管怎样，当年打造这样的一份数据集，并不是一件容易的事情，也非常难得。

新·数据集

现在，随着技术的发展，以及人们收集数据的手段大幅度提高，现在的人脸识别数据集也变得更加完善。

其中一个比较有代表性的，是香港中文大学汤晓鸥团队在2016年开放的CalebA人脸数据集。

20年前的吴恩达，藏在一个数据集里

数据集中包含10,177个名人身份的202,599张人脸图片，规模是CMU1997年数据集的300多倍。

而且原来的图片，只是找学生拍了一些黑白的数据集，图片最大的也不过是128*120。现在这个数据集不仅都是名人图片，还配有“高清大图”。

而且，每张图片都做好了特征标记，包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记。

20年前的吴恩达，藏在一个数据集里

广泛适用于人脸属性标识训练、人脸检测训练以及landmark标记等与人脸相关的计算机视觉训练的各种任务。

数字化的你

在CMU Face Images这个数据集里，图片的存储格式为：.pgm。

pgm是一个缩写，全称：Portable Gray Map。这是一种灰度图像格式，与常见的jpg格式相比，pgm不对数据进行压缩，因而体积较大。

△吴恩达图片实际很小

上面我们提到的各种吴恩达青涩照，最大分辨率是128×120，大小为43KB。如果存储为jpg格式，大小能缩小到4KB。

（上面的展示都是经过放大的版本。）

由于不对数据进行压缩，pgm的图片格式非常直观，直接拖动一张这样的图片到浏览器里，你就能看到一个数字化的“吴恩达”。

就是这个样子：

20年前的吴恩达，藏在一个数据集里

后面还有很多很多数字。一直往下拉，感受是这个样子的。

20年前的吴恩达，藏在一个数据集里

里面的数值代表灰度。灰度的最大值是255。

其实，这就是计算机看图的方式。

上面提到的汤晓鸥老师，出版了一本《人工智能基础（高中版）》。书中有一小节，介绍了计算机眼中的图像。

如果将一幅图像放大，我们可以看到它是由一个个的小格子组成的，每个小格子是一个色块。如果我们用不同的数字来表示不同的颜色，图像就可以表示为一个由数字组成的矩形阵列，成为矩阵（matrix），这样就可以在计算机中存储。

彩色图像有三个通道。矩阵可以看作是高度为1的三阶张量，因此灰度图像只有一个通道。

20年前的吴恩达，藏在一个数据集里

那么计算机又怎么才能认出“吴恩达”以及他的表情呢？

也只在这本书里，简单介绍了如何利用卷积提取图像特征。我们也简单做个引用。

首先我们利用卷积运算从图像中提取出边缘特征，接下来，我们将图片划分成若干区域，并对边缘特征按照方向和幅度进行统计，并形成直方图。最后我们所有区域内的直方图拼接起来，就形成了特征向量。

20年前的吴恩达，藏在一个数据集里

就酱。

One More Thing

最后，再奉献一个动图：

20年前的吴恩达，藏在一个数据集里

周末快乐~

标签: 人工智能机器学习人脸识别谷歌百度微信

20年前的吴恩达，藏在一个数据集里

数据集的贡献

新·数据集

数字化的你

One More Thing

为您推荐