量子信息论中最核心的概念是量子纠缠(下)

转载声明:本文转载自“中国物理学会期刊网”,搜索“cpsjournals”关注。

1

简介

经典物理学的主角是物质和能量。 20世纪初,爱因斯坦写出了E=mc2,统一了质量和能量。从此,一个新的角色——信息(Information)——逐渐走向物理舞台的中心。信息是衡量不确定性的指标。香农创立信息论的初衷是量化描述信息的存储和传输。 Jaynes 从信息论的角度研究了多粒子系统,重新诠释了统计力学。事实证明,物理学家所熟知的热力学熵与香农用来衡量信息量的信息熵(Information Entropy)是同源的。 Landauer 指出,擦除信息会增加热力学熵,从而产生热量。因此,所有信息处理,例如计算,都受热力学基本定律的支配。这些工作让人们逐渐认识到,信息不是一个纯粹的数学概念,而是一个与物质和能量一样基本的物理概念。

量子力学给物理世界带来了固有的不确定性,从而产生了量子信息论。量子信息论的核心概念是量子纠缠。如果两个微观粒子的整体波函数不能写成它们各部分的直接乘积,那么它们之间就存在纠缠。对于具有量子纠缠的系统,观察一个部分可以告诉我们另一部分。类似于经典的信息熵,我们使用纠缠熵来测量量子纠缠的大小。量子信息论的视角,特别是量子纠缠的概念,在现代物理学研究中发挥着越来越重要的作用。

凝聚态物理学家使用量子纠缠来表征物质的量子态。传统上,他们使用对称性和宏观有序参数来区分不同的物质状态。这成功地解释了超流体、超导体、磁性等多种自然现象。然而,近年来,越来越多仅靠对称性无法区分的物质状态被发现,如不同种类的自旋液态、分数量子霍尔态,等等。量子纠缠可以给这些新的物质状态贴上合适的标签。例如,纠缠熵随系统大小的缩放行为反映了物质量子态的基本特性。对缩放行为的修正也可能包含有关物质状态的一般信息。研究物质量子态中纠缠的大小和模式已成为现代凝聚态物理学的核心问题。此外,量子纠缠导致计算物理学家开发有效的数值算法来准确模拟量子多体现象。本专题中的其他几篇文章描述了使用张量网络状态方法研究量子多体问题的进展。张量网络算法的成功很大程度上源于物质量子态的典型纠缠结构:面积定律。许多人关心量子系统两部分之间的纠缠熵仅与其边界大小成正比,这使得使用经典计算机高效准确地研究这些量子多体问题成为可能。有趣的是,量子态所遵循的面积定律也与黑洞的熵息息相关。从量子信息的角度审视引力、虫洞、量子混沌等现象,甚至可以加深我们对时空起源的理解。这方面的国际研究正在如火如荼地进行。美国的西蒙斯基金会支持一个专注于此的合作研究项目。

量子纠缠的深远影响并不止于此,最近的一些研究进展表明,它也可能对机器学习中的一些问题具有启发性和指导意义。机器学习的研究目标是让计算机获得一定程度的智能,从而在没有太多人为干预的情况下高效地解决实际问题。通常,这种看似神奇的能力是通过从大量样本中学习获得的。由于近年来算法和硬件的飞速发展以及大量数据的积累,机器学习取得了一系列令人振奋的成果。尤其是2016年3月,由谷歌DeepMind打造的AlphaGo程序击败了世界围棋冠军李世石,将以深度学习为代表的新一代机器学习技术带入了大众视野。如今,机器学习在人类生活的各个方面发挥着越来越重要的作用,包括图像和语音识别、机器翻译、计算广告、推荐系统等等。并且其应用正逐渐渗透到天文、物理、化学、材料、生物、医学等诸多科研领域。具体到本文作者的工作领域:将机器学习方法应用于量子多体问题,可以从高维空间中复杂的微构型数据中提取关键物理信息。将机器学习的思想与传统的计算方法相结合,为解决凝聚态和统计物理中的难题提供了新的思路。最近的一些尝试包括使用机器学习方法来检测相变和对物质相进行分类,探索使用人工神经网络作为量子系统的暂定波函数等等。这些尝试让物理学家有机会仔细研究机器学习领域的核心思想和技术。本文在这个方向上引入了一个新的研究思路:从量子纠缠的角度审视深度学习,从而反馈机器学习的发展。

2

深度学习和量子多体物理中的函数逼近

深度学习到底在做什么?简而言之,就是函数逼近。函数逼近的目的是以一种有效且经济的方式尽可能准确地描述复杂的函数映射。实际问题中的目标函数可能是图像识别应用程序中从微观像素到图片类别的映射,它可能是 AlphaGo 中的围棋位置到对最终获胜率的估计,或者它可能是从图像中的映射Atari 视频游戏到最佳控制策略等等。读者可能已经看到,很难用简洁的方式表达上述功能。甚至考虑一个极其简化的情况:如何描述具有 N 个二进制参数的多元函数?原则上,我们当然可以存储一个 2N 行的表来精确表达这样的功能。这张表的每一行对应一个可能的输入和输出,函数的计算相当于查表。但是只要 N 70 ,就算有世界上所有的存储介质,我们也无法存储这张表,更不用说高效的搜索了。

机器学习中的连接主义提倡使用人工神经网络来解决此类函数逼近问题。联结主义强调复杂现象(例如智力)不是来自相对简单的构成单位,而是来自这些单位之间的联系。图 1(a)、(b) 显示了两种常见的人工神经网络结构。图 1(a) 是一个前馈神经网络。图中每个蓝色圆圈代表一个人工神经元物理学中的张量分析电子版,它接受上一层的结果作为输入,然后通过非线性激活函数将加权和传递给下一层。可以看出,前馈神经网络通过多层非线性函数的嵌套来表达复杂的多元函数。图 1(b) 显示了另一种函数参数化方法:受限玻尔兹曼机。顾名思义,玻尔兹曼机与统计物理学密切相关。我们可以将其视为一个统计力学系统,其中包含两组相互作用的随机变量:显式变量(红色)和潜在变量(蓝色)。 “玻尔兹曼机”这个名字来源于这些随机变量的联合概率分布遵循统计物理学中的玻尔兹曼分布。而“restricted”这个词来源于图1(b)所示的特殊网络结构:所有的连接都只存在于显式层和隐藏层之间。与全连接玻尔兹曼机相比,这样的结构可以大大提高计算效率。对于只关心显式变量的观察者来说,即使显式层内部没有直接的交互作用,隐层神经元诱发的有效交互作用仍然可以将它们关联起来。

图1 参数化多元函数的几种方法 (a) 前馈神经网络; (b) 受限玻尔兹曼机; (c) 矩阵乘积状态

与使用 2N 行表相比,图 1(a)、(b) 所示的两种网络结构都可以用少得多的参数逼近复杂的多元函数。在实际应用中,我们可以调整前馈神经网络中的权重参数,使其学会从图片的像素信息中区分物体的类型。或者,我们可以调整受限玻尔兹曼机中随机变量之间相互作用的强度,使重要变量的概率分布尽可能地再现目标数据集的分布。经过训练的玻尔兹曼机可以生成更多遵循目标概率分布的新样本。上述两类任务分别对应判别学习和生成学习。例如,判别式学习相当于学习阅读,而生成式学习旨在学习写作。正如费曼在他的黑板上留下的名言“我不能创造的,我不懂”,学习写作比学习阅读要困难得多,而且还需要更深层次的理解。判别学习是当今大量成功商业应用的基础,而用于探索生成学习的模型和算法代表了深度学习研究的前沿和未来。

在实际应用中,人们希望用一个通用的人工神经网络结构来表达尽可能复杂多变的功能形式。这自然会引出一个问题:图1(a)、(b)所示的网络可以表达什么功能形式?为此,已经证明了所谓的“通用表示定理”:随着网络中隐藏层神经元数量的增加,图1(a)所示的前馈神经网络结构(即使只有单个隐藏层)可以任意逼近任何连续函数。类似地,通过增加图 1(b) 中受限玻尔兹曼机中隐藏神经元的数量,它也可以表达关于显式变量的任意复杂概率分布函数。不幸的是,对于一个特定的函数逼近问题,上述通用表示定理至少不能告诉我们需要多少隐藏层神经元,也不能告诉我们如何确定这些神经元之间的连接权重。实际上,我们关心的首要问题是:在有限的计算时间和存储资源的情况下,应该如何优化分配?

经过多年的探索和实践,人们有了一个关键发现:在参数数量相同的情况下,深度神经网络比浅层网络具有更强的表达能力。训练越来越深的神经网络以逼近复杂的功能形式是“深度”一词的来源。当然,神经网络的表达能力并不是越强越好。过于复杂的网络结构不仅增加了计算量,还可能导致神经网络的过拟合,这是典型的“过拟合”。神经网络的表现力最好与需要描述的函数的复杂性相匹配。为此,人们设计了种类繁多的神经网络结构。许多这些结构设计主要是由实际工程经验驱动的,这使深度学习获得了“经验”的声誉。使用人工神经网络进行函数逼近的初衷是利用它们的多功能性,在没有太多人为干预的情况下自动找到数据中的关键特征。但是当神经网络的结构越来越多样化的时候,我们又面临着人工选择网络的问题,我们又回到了起点。

因此,迫切需要一些更具指导性的标准来帮助我们定量定义神经网络的表达能力和数据集的复杂性,从而在不同结构的神经网络之间进行比较和权衡。为此,我们需要更深入地了解神经网络代表什么——现实世界中的多元函数。在我们之前的示例中,虽然原则上有 2N 个可能的输入,但典型的输入通常遵循一定的分布。关于目标数据的分布和功能特性的先验知识有助于指导我们设计合适的神经网络结构。最明显的先验之一是函数的对称性。例如,在图像识别的情况下,图像的类型与对象在其中的具体位置无关。类似地,围棋位置的估计也应该对棋盘配置保持反转和旋转不变。在图 1(a) 的网络中实现这些约束,我们有一个卷积神经网络。它使用Local Receptive Fields扫描整个图像以寻找特征,并通过在不同的感受野之间共享权重来确保函数的不变性。如何发现和利用更多相似的“先验知识”是深度学习成功的关键。

与上面的例子类似,函数逼近在量子物理学的研究中也经常用到。例如,量子自旋系统的波函​​数只不过是自旋配置的多元函数。与深度学习的目标一样,我们也希望使用尽可能简单的参数化和尽可能少的参数来描述最复杂的波函数。一句话概括,就是“天阔,网疏而不失”。图 1(c) 显示了量子多体物理研究中常用的一种用于参数化波函数的方法:矩阵乘积状态。它的基本单位是红色方块所示的三阶张量。垂直线代表物理指标,而正方形之间的水平线称为“Vitual Bonds”。水平线之间的连接表示虚拟关键指标的总和。不难猜测,随着Virtual Bond Dimension的增加,矩阵乘积状态可以表达的关于物理指标的函数越来越复杂。除了增加虚拟键的维数外,另一种增加矩阵乘积状态表达能力的方法是将图 1(c) 所示的块推广到高阶张量,即增加虚拟键的数量。连接所有虚拟键并将所有内部张量指标相加得到上述张量网络状态。与深度学习中的各种人工神经网络结构一样,物理学家也发明了许多不同结构的张量网络状态和相应的算法。然而,与深度学习不同,物理学家对张量网络的表达能力有更定量的理解:关键是量子纠缠!通过切割张量网络状态而破坏的虚拟键的数量和维度与网络可以描述的纠缠熵直接相关。另一方面,虽然量子多体问题的希尔伯特空间很大,但幸运的是,大多数感兴趣的量子态只是其中的一小部分。这些状态的量子纠缠熵不是任意的,而是遵循前面提到的面积定律。张量网络状态恰好捕捉到了物理问题的这一重要属性,因此成功了。在实际研究中,物理学家通常会根据具体物理问题的纠缠大小和模式,灵活选择设计张量网络状态结构。从这个意义上说,量子纠缠实际上是指导物理学家应用张量网络研究量子多体问题的“先验知识”。

3

深度学习有助于量子物理学

从函数逼近的角度来看,深度学习和量子物理学之间的联系是明确的。即使在上一次联结主义研究的低潮时期,也有人尝试使用人工神经网络作为量子系统的变分波函数。最近,Carleo 和 Troyer 尝试将受限玻尔兹曼机用作量子自旋系统的多体变分波函数,从而对基态能量和非平衡动力学产生了非常准确的结果。值得注意的是,传统的受限玻尔兹曼机只能表达正概率分布函数。为了使它们适用于描述具有相位信息的波函数,Carleo 等人。将限制玻尔兹曼机的参数。泛化到复数域。此外,Carleo 等人采用的功能形式。在实际计算中实际上是多个具有共享权重的受限玻尔兹曼机的乘积。这样的结构相当于一个单隐层卷积神经网络,在结构上保证了物理系统的空间平移不变性。 Carleo 和 Troyer 的研究结果引起了极大的兴趣,主要是:类似的人工神经网络能否描述其他丰富多样的物质状态?

邓冬玲、李晓鹏和达斯萨尔马对这个问题给出了建设性的回答。它们举例说明了几种普遍感兴趣的拓扑状态,可以用受限玻尔兹曼机的函数形式表示。蔡子直接训练图 1(a) 所示的前馈神经网络,测试他们是否能学会表达玻色子、费米子和受挫磁态的一些典型波函数。这些尝试进一步证明了人工神经网络作为量子多体波函数的潜力。但是,有没有更一般的理论来定量描述这种人工神经网络变波函数的优缺点呢?为了回答这些问题,邓冬龄等人。研究了受限玻尔兹曼机的纠缠表达能力。他们发现,密集连接的受限玻尔兹曼机器原则上可以承载超出面积定律的量子纠缠。笔者与谢海东、向涛利用等价变换的思想,搭建了玻尔兹曼机与张量网络状态之间的桥梁。这样就可以通过分析对应的张量网络状态来回答前面关于玻尔兹曼机的问题。我们发现恢复平移不变的波函数构造是Carleo等人计算成功的关键,这种构造在不增加变分参数的情况下,巧妙地增加了变分波函数的表达能力上限。高迅和段路明从计算复杂度理论的角度分析论证了受限玻尔兹曼机的局限性,并指出深度玻尔兹曼机可以高效地描述几乎所有已知的量子态。他们的工作表明,纠缠熵并不是表征表现力的唯一标准。同样重要的是要注意,更高的表达能力并不意味着在实际计算中更好的函数逼近。此外,黄一辰和摩尔还研究了玻尔兹曼机在量子多体问题中的表达能力。这些理论发现为设计更具成本效益的量子多体探测波函数提供了方向指导。深度学习领军人物 Yann LeCun 也注意到了这一系列来自物理学领域的工作。他在 Facebook 上分享了他对量子纠缠、黑洞熵和张量网络状态的理解,并得出结论:“一种迷人的联系。”

4

量子纠缠指导深度学习

这些作品的研究思路是利用神经网络来逼近量子多体波函数。有趣的是,使用逆向思维,量子多体物理也可以帮助回答一些关于深度学习的问题。例如,我们可以从量子纠缠的角度来说明为什么深度学习中的深度很重要。考虑图 2 中所示的两台玻尔兹曼机,它们具有完全相同数量的隐藏神经元和权重参数。不同的是,图2(a)中的隐藏层神经元以浅扁平化的方式排列,而图2(b)中的隐藏层神经元沿深度方向以层次结构排列。

图 2 两个不同架构但参数数量相同的玻尔兹曼机 (a) 受限玻尔兹曼机; (b) 深玻尔兹曼机。红色虚线框中的神经元承载了网络左右部分的纠缠。一旦它们被移除,网络就会被分成两个独立的部分

为了分析比较图2中两个网络的优劣,我们按照文献的思路将它们转化为矩阵乘积状态。由于等价变换,对应矩阵乘积态的虚键维数限制了原玻尔兹曼机承载纠缠能力的上限。并且根据文献,要估计相应的虚拟键维数,只需要检查玻尔兹曼机中去除了多少神经元即可断开网络的两侧。如图 2 中的虚线框所示,深玻尔兹曼机对应的虚拟键维数较大,因此可以比浅玻尔兹曼机加载更多的纠缠。以上分析仅依赖于玻尔兹曼机的结构,不涉及权重的任何数值信息。通过这个分析,我们从量子纠缠的角度说明了深层结构的重要性:在相同数量的参数下,深层玻尔兹曼机具有相对更强的表达能力上限。在这里,张量网络状态不仅仅是一个分析工具。作为副产品,我们也了解了它和玻尔兹曼机在函数逼近方面的优缺点。例如,玻尔兹曼机可以使用比张量网络状态少得多的参数来表达相同的量子状态。但是物理学中的张量分析电子版,对某些特定状态使用受限玻尔兹曼机不如张量网络状态方便。

除了帮助分析神经网络的表达能力,量子纠缠还可以作为深度学习应用的“先验知识”:它定量描述数据集的复杂性,并据此指导人工神经网络结构的设计。例如,让我们考虑机器学习中的一个典型数据集:MNIST。如图 3 所示,MNIST 包含 60,000 张各种形状的手写数字图片。每张图像是一张28×28的黑白图像,其像素灰度范围从0到255。所有可能图像的数量是一个天文数字:25628×28。然而,可以想象,真正有意义的手写数字图片只占据了这个巨大“像素空间”的一个小角落。让人想起前面的讨论,大多数物理感兴趣的量子态也只占据希尔伯特空间的一个小角落。我们可以将 MNIST 中的图片视为针对某个量子波函数测量的配置的快照。类比量子系统的分析,我们可以将每张图片切成两半,研究两部分之间的量子纠缠。请注意,如此定义的纠缠熵是针对整个数据集的分布,而不是针对单个图像。数据集的纠缠性质指导我们在学习过程中合理分配资源。例如,请注意 MNIST 数据集中每个图像的边缘都是黑色的。这意味着图片边缘的像素值不依赖于任何其他像素,因此不会与它们纠缠在一起。如果使用玻尔兹曼机来学习这种概率分布,那么绝对不需要使用隐藏变量来进行它们的关联。另一方面,通过覆盖一半的 MNIST 图像,可以猜测另一半的大致外观。这意味着图片的这两个部分之间存在纠缠。纠缠熵的具体值定量地告诉我们至少需要多少个隐藏层神经元,什么样的连接结构可以描述这样的数据集。

图 3 来自 MNIST 数据集的一些样本

获得英特尔国际科学与工程奖的年轻 Henry W. Lin 和 MIT 宇宙学家 Max Tegmark 曾指出,深度学习成功的关键不仅取决于数学,还取决于物理。我们关心的任何实际数据集——无论是自然图像还是语音信号——都是现实世界的反映。这也意味着它们通常表现出局部关联,存在对称性并表现出层次结构。在本文作者看来,量子纠缠可以从物理定律中定量挖掘和利用这些先验知识。虽然自然数据集的纠缠熵不一定遵循面积定律,但仍应远离最大纠缠的饱和值。这启发我们用处理量子多体问题的思路,根据数据集的特点设计合适的函数逼近方法。读者可能会疑惑,在大多数现实世界的应用程序中遇到的数据不都是经典的吗?为什么一定要引入量子纠缠的概念?经典信息论还不够吗?这里我们引用美国计算机科学家、量子信息科学家Scott Aaronson的观点:把量子力学看作是经典概率论的数学延伸,而量子纠缠是描述多参函数性质的实用数学工具。文献采用类似的研究思路,利用量子纠缠来分析和表征现实世界中的复杂网络。

上面的讨论都是关于生成学习的,那么量子纠缠同样有助于理解判别学习吗?考虑到深度前馈神经网络在现实世界中的广泛应用,这是深度学习研究的热门话题。这方面的一项指导性工作来自计算物理学家 Stoudemire 和生物物理学家 Schwab,他们成功地训练了矩阵乘积状态以识别 MNIST 数据集中的数字。他们的成功表明,从 MNIST 像素到数字标签的函数映射的纠缠熵看起来并不大,可以通过矩阵乘积状态有效地描述。巧合的是,由耶路撒冷希伯来大学的计算机科学家 Amnon Shashua 领导的一个团队一直在使用张量分析研究人工神经网络。在之前的一系列工作之后,他们的注意力最近也被吸引到量子纠缠的概念上。 2017 年 4 月上旬,Shashua 等人。在 arXiv 上发表了一篇题为“深度学习和量子纠缠:与网络设计的基本联系”的长文。该论文的第一作者Yoav Levine硕士期间在以色列魏茨曼科学研究所学习理论凝聚态物理,现在是Shashua的博士生。在本文中,莱文等人。采用类似于文献的策略将一类特殊的卷积神经网络转换为张量网络状态。这样就可以通过张量网络的Min-Cut分析来确定原始人工神经网络的纠缠表达能力。作为一个具体的例子,他们考虑了具有“上宽下窄”和“上窄下宽”两种结构的卷积神经网络,并从理论上证明其性能取决于目标数据集的纠缠特性。他们在 MNIST 数据集上设计了数值实验,并且确实验证了这些理论预测。

可以看出,深度学习和量子多体物理的交汇处正在形成一个新兴的研究方向,而量子纠缠是连接它们的桥梁。一些嗅觉敏锐的研究人员在该领域意识到了彼此的想法、方法和技术的帮助,并积极相互学习。期待随着更多思想活跃的研究人员的加入,深度学习与量子多体物理的研究将碰撞出更加灿烂的火花。

5

结论

也许量子多体物理和深度学习相遇并不奇怪,毕竟这两个领域都关注由大量微观自由度组成的复杂系统中宏观现象的出现。 The tools that people have formed to understand the rich and varied quantum states of nature may help us design more intelligent artificial neural networks and learning algorithms. “Quantum Machine Learning” is a booming field, and this article is just the tip of the iceberg. Interested readers are referred to the introductory article and recent review in Physics.

Einstein famously said, “Nature is delicate, but she has no malice”. The structure behind this complex world can be considered subtle. But once you get the hang of it, it can be understood in a few lines of neat and beautiful formulas. Could deep learning help us capture the kindness of nature? We put this question here in anticipation that the encounter of quantum physics and machine learning can help us discover more of the subtleties of nature!

Acknowledgments Thanks for the cooperation with Xie Haidong and Xiang Tao; thanks for discussions with Deng Dongling, Li Xiaopeng, Gao Xun, Tu Honghao, Yang Yifeng, Zhang Pan, Cai Zi, Li Wei and E. Miles Stoudenmire; thanks to Xu Xiaoyan, Luo Xiuzhe, Zhang Yueshui, Liu Yehua and Zhang Yin’s suggestions for the writing of this article.

This article is selected from the 7th issue of “Physics”, 2017

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论