贝叶斯AI2018世界人工智能峰会:贝叶斯推理的简单解释!

新智元AI WORLD 2018世界人工智能峰会

有点令人惊讶的是,在所有机器学习的流行语中,我们很少听到一个短语将统计学、信息论和自然哲学的一些核心概念结合在一起。

此外,它并不是一个只有机器学习博士和专家才能理解的晦涩术语,对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,并且对于 ML 和数据科学的从业者的价值具有实际意义。

该术语是最小描述长度。

让我们剥茧,看看这个词有多有用……

贝叶斯和他的理论

我们从托马斯贝叶斯开始,顺便说一下,他从未发表过关于如何进行统计推断的想法,但后来被“贝叶斯定理”永垂不朽。

托马斯贝叶斯

那是在 18 世纪下半叶,当时还没有数学科学的一个分支,叫做“概率论”。概率论因亚伯拉罕·德·莫伊弗尔 (Abraham de Moievre) 的《机会学说》一书而闻名。

1763 年,贝叶斯的著作《An Essay to solve a Problem in the Doctrine of Opportunity》被送到了皇家学会,但在他的朋友理查德·普赖斯 (Richard Price) 编辑和修订后发表在伦敦皇家学会的哲学汇刊上。在那篇文章中,贝叶斯以相当复杂的方式描述了一个关于联合概率的简单定理,该定理引发了逆概率的计算,称为贝叶斯定理。

从那时起,贝叶斯学派和频率学派这两个统计科学学派之间就发生了很多争论。但是为了本文的目的,让我们暂时忽略历史,专注于对贝叶斯推理机制的简单解释。见下面的公式:

这个公式实际上告诉你在看到数据/证据(可能性)后更新你的信念(先验概率),并将更新后的信念程度分配给后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这种信念,并且你不断更新你的假设。

听起来非常简单直观,对吧?非常好。

然而,我在这一段的最后一句玩了个小把戏。你注意到了吗?我提到了“假设”这个词。

在统计推理的世界里,假设就是信念。这是对过程性质的信念(我们永远无法观察到),背后是随机变量的创建(我们可以观察或测量,尽管可能是嘈杂的)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是我们认为可以产生示例或训练数据的任何一组规则(或逻辑/过程),并且我们可以了解这个神秘过程的隐藏本质。

因此,让我们尝试用不同的符号重新定义贝叶斯定理——在与数据科学相关的符号中。我们用 D 表示数据,用 h 表示假设,这意味着我们使用贝叶斯定理中的公式来尝试确定数据来自给定数据的假设。我们将定理改写为:

现在,一般来说,我们有一个很大的(通常是无限的)假设空间,也就是说,有很多假设可供选择。贝叶斯推理的本质是我们想要测试数据以最大化最有可能产生观察数据的假设的概率。我们一般要确定 P(h|D) 的 argmax,即在 h 的哪种情况下,观察到的 D 最有可能。为此,我们可以将此项放在分母 P(D) 中,因为它不依赖于假设。这种方案称为最大后验(MAP)。

现在,我们应用以下数学技巧:

那些负对数为 2 的项看起来很熟悉,不是吗……来自信息论!

让我们进入克劳德香农的世界吧!

香农和信息熵

描述克劳德·香农的天才和奇特的一生都太长了。香农几乎单枪匹马地奠定了信息论的基础,带领我们进入了高速通信和信息交换的现代时代。

Shannon 在麻省理工学院电气工程系的硕士论文被誉为 20 世纪最重要的硕士论文:在这篇论文中,22 岁的 Shannon 展示了 19 世纪的数学家 George Boole 如何使用电子电路实现继电器和开关。布尔逻辑代数。数字计算机设计的最基本特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做出决策和执行算术——可以追溯回到香农论文中的见解。

但这并不是他最大的成就。

1941 年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948 年,贝尔实验室的研究期刊发表了他的研究,划时代的论文题为“通信的数学理论”。

香农通过一个类似于物理学中热力学熵的公式计算出一个信息源产生的信息量(例如信息中的信息量)。用最基本的术语来说,香农的信息熵是编码信息所需的二进制位数。对于概率为 p 的消息或事件,其最具体(即最紧凑)的编码将需要 -log2(p) 位。

这就是贝叶斯定理中出现在最大后验表达式中的那些项的本质!

所以我们可以说,在贝叶斯推理的世界里,最有可能的假设取决于产生长度感的两个项,而不是最小长度。

那么长度是什么概念呢?

长度(h):奥卡姆剃刀

奥卡姆的威廉 (c. 1287-1347) 是英国方济各会修道士和神学家,也是一位有影响力的中世纪哲学家。他是一位伟大的逻辑学家,他以他的家而闻名,他的名言源于他被称为奥卡姆剃刀的格言,通过“挤出”不必要的假设或划分两个相似的结论来区分两个假设的术语。

奥卡姆剃刀的原文是“除非必要,否则不要增加实体”。在统计学中,我们必须努力用最简单的假设来解释所有数据。

其他知名人士也赞同类似的原则。

牛顿说:“要解释自然界的一切概率论pdf是什么意思,应该寻求使用最少的原则。”

“在可能的情况下,用已知实体的结构代替来自未知实体的推论,”Russell 说。

人们总是喜欢较短的假设。

那么我们需要一个关于假定长度的例子吗?

以下哪个决策树的长度更短?甲还是乙?

即使没有对假定的“长度”的精确定义,我相信你会假设左边的树 (A) 看起来更小或更短。你当然是对的。所以较短的假设是它要么具有较少的自由参数,要么具有不太复杂的决策边界,或者这些属性的某种组合可以代表它的简洁性。

那么什么是长度(D|h)?

给定的假设是数据的长度。这是什么意思?

直观地说,它与假设的正确性或代表性能力有关。给定一个假设,它控制“推断”数据的能力。如果假设数据生成良好,并且我们可以准确无误地测量数据,那么我们根本不需要数据。

考虑牛顿运动定律。

当牛顿运动定律首次出现在《自然哲学的数学原理》中时,它们并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察的假设。但他们很好地描述了数据。因此它们成为物理定律。

这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即 F=ma,并相信你需要的所有数字都可以在必要时从这个假设中计算出来。它使 Length(D | h) 非常小。

但是如果数据显着偏离假设,那么您需要详细描述这些偏差是什么,它们可能的解释是什么等。

因此,Length(D|h) 简洁地表达了“数据与给定假设的匹配程度”的概念。

本质上,它是错误分类或错误率的概念。对于完美假设,它很短,在极限内为零。对于与数据不完全匹配的假设来说,它往往会很长。

而且,有权衡。

如果你用奥卡姆剃刀刮掉你的假设概率论pdf是什么意思,你最终可能会得到一个简单的模型,一个没有所有数据的模型。因此,您必须提供更多数据以获得更好的一致性。另一方面,如果你创建一个复杂(长)的假设,你可能对训练数据没问题,但这实际上可能不是正确的假设,因为它违反了假设熵很小的 MAP 原则。

结合所有这些

因此,贝叶斯推理告诉我们,最好的假设是最小化两项之和:假设的长度和错误率。

这句话几乎涵盖了所有(监督)机器学习。

考虑它的结果:

我们真正得出的结论是什么?

从最小描述长度(MDL)原则的分析中,我们可以得出什么结论?

这是否一劳永逸地证明了简短的假设是最好的?

不。

MDL 指出,如果选择假设表示,使得 h 的大小为 -log2P(h),并且如果选择异常(错误)表示,则给定 h 的 D 的编码长度等于 -log2P(D | h),则 MDL 原理产生 MAP 假设。

然而,为了证明我们有这样的表示,我们必须知道所有的先验概率 P(h) 以及 P(D|h)。没有理由相信 MDL 假设应该优于假设和错误/错误分类的任意编码。

对于实际的机器学习,人类设计师有时可能更容易指定一个表示来获得关于假设的相对概率的知识,而不是完全指定每个假设的概率。

这就是知识表示和领域专业知识变得非常重要的地方。它缩小了(通常)无限的假设空间,并将我们引向一组高度可能的假设,我们可以对这些假设进行最佳编码并努力在其中找到一组 MAP 假设。

总结和思考

一个奇妙的事实是,如此简单的数学运算集可以在概率论的基本特征之上对监督机器学习的基本限制和目标进行如此深入而简洁的描述。对于这些问题的简明阐述,读者可以参考 CMU 的一篇博士论文,“Why Machine Learning Works”。

原文链接:

为什么机器学习有效:

~gmontane/montanez_dissertation.pdf

新智元AI WORLD 2018世界人工智能峰会

倒计时8天

门票正在发售中!

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授Tom Mitchell、Max Tegmark、周志华、陶大成、陈怡然等AI领军人物共同关注机器智能和人类命运。

会议官网:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论