深度学习神经网络里程碑2——玻尔兹曼机

有些刚接触人工智能的人凭感觉认为,人工神经网络在学习开始之前,神经单元之间完全是随机连接的。他们认为,人工神经网络是从零基础开始学习——这个零基础既指知识为零,也指网络没有任何先天的结构。这种观点与另一种认为所有的知识都是先天拥有,后天的学习只是回忆的观点一样,都比较偏激。实际上,再多的猴子在键盘上随机敲击也不可能敲出《红楼梦》。而如果我们能够知道某种网络结构适合于解决某种问题,并且在开始深度学习之前就构建这种网络结构,将能够显著提高学习效率和问题求解效率。另外,人工神经网络科学家们很早就发现,为了解决“有趣”的计算问题,网络中必须具有非线性的成分,但是非线性网络往往很难收敛。于是,为人工神经网络寻找非线性的、可收敛的基础网络结构成为人工神经网络科学家们的努力方向。Hopfield网络是他们的一个重要成果。玻尔兹曼机是基于Hopfield网络的另一个重要成果。

Hopfield网络用于解决模式识别问题,而玻尔兹曼机用于解决约束满足问题(CSP)。

约束满足问题(CSP)可以用Hopfield网络来解决吗?Hopfield网络往往不能收敛到达全局能量最低的稳定态,而是陷入某个局部能量最低的稳定态不能自拔。对于模式识别问题来说,这不是一个问题,因为不管是局部能量最低的稳定态,还是全局能量最低的稳定态,都是Hopfield网络储存的模式。但约束满足问题(CSP)期望的答案往往是唯一的最优解,对应于全局能量最低的稳定态。改进Hopfield网络,让其跳出局部能量最低的稳定态,收敛到全局能量最低的稳定态,是玻尔兹曼机的目标。

什么是玻尔兹曼机?玻尔兹曼机是一种适用于解决包含了大量“弱”约束的约束满足问题的并行计算结构。这里的并行计算结构就是人工神经网络。“弱”约束是相对“强”约束而言的。“强”约束条件是约束满足问题的解必须满足的约束条件。求解围棋、象棋、纵横字谜等等问题时需要满足很多这样的强约束条件。有些约束条件则是求解一些问题,比如图片识别时,并不需要必须满足的;这类条件就是弱约束条件。

和Hopfield网络一样,玻尔兹曼机也是由许多两两双向连接的神经单元组成,并且每个神经单元只有两个状态,on或者off。神经单元之间的连接权重也是对称的,正向连接和反向连接的权重相等。所有的神经单元的最终状态加起来就构成了问题的最终解。所有的神经单元的中间状态加起来就构成了问题的中间解或者假设解,而每个神经单元的状态都是这个假设解的一份子,即单元假设。一个神经单元的状态是on或者off代表着网络当前对这个单元假设的接受或者拒绝。神经单元之间的连接的权重代表了两个单元假设之间成对出现的“弱”约束。权重为正值代表两个单元假设相互支持,可以共存;权重为负值则表示两个单元假设无法共存。

玻尔兹曼机和Hopfield网络一样,任何一个神经单元都根据其它所有神经单元的状态和神经单元间的连接的权重来计算或者更新自己的状态,区别在于,前者使用了确定性函数,即计算其它神经单元的状态和神经单元之间的连接权重乘积再求和,而后者使用了概率性函数。玻尔兹曼机使用概率性函数相当于在网络中引入了一个较大的干扰,刺激网络远离局部能量最低状态,重新启动神经单元的状态更新,从而有机会收敛到别的稳定态,最终到达全局能量最低稳定状态。这个过程有点类似铁匠熟悉的淬火过程。淬火是指先把铁器加热到一个较高的温度,然后降温,目的是让铁器更有韧性。概率性函数让玻尔兹曼机远离局部能量最低状态,相当于升高网络的温度。而当网络的温度逐步下降,经历了“淬火”之后,网络就可能到达全局能量最低状态,获得约束满足问题的最优解。

热力学研究中发现的一个概率性函数能够帮助玻尔兹曼机跳出局部能量最低稳定态。这个概率性函数叫做Metroplis算法,即不管一个神经单元之前是什么状态,其当下的状态被设置成on的概率既与这个神经单元的状态是on或者off产生的能量差异有关,也与网络的“温度”有关。玻尔兹曼机的这个状态确定规则与由基本粒子(也只有两个能量状态)组成的热力学系统使用的规则相同。这样的基本粒子系统接触到一定温度的热量时,最终会达到热平衡,并且找到处于某个全局状态的系统的概率服从玻尔兹曼分布。同样,遵循这个算法规则的玻尔兹曼机也会达到热平衡,这就是“玻尔兹曼机”这个名字的由来。如果玻尔兹曼机的“温度”比较高,则达到热平衡的速度比较快,但收敛的结果比较粗糙。如果玻尔兹曼机的“温度”比较高低,则达到热平衡的速度比较慢,但收敛的结果比较精细。所以比较好的办法是采用“淬火”机制,先提高玻尔兹曼机的温度,然后慢慢地降低温度,最终达到全局最低能量的稳定态。

玻尔兹曼机的一个典型应用是从背景中分离出图形。从背景中分离出图形或者其它明显的实体也是格式塔(Gestalt)心理学家特别感兴趣的一个研究课题。格式塔(Gestalt)心理学家认为思维是整体的、有意义的知觉,而不是联结起来的表象的简单集合;主张学习是在于构成一种格式塔(Gestalt),是把一个格式塔(Gestalt)改变为另一个格式塔(Gestalt);在德语中格式塔(Gestalt)意思就是整体或者形状;他们认为学习的过程不是试尝错误的过程,而是顿悟的过程,即结合当前整个情境对问题的突然解决。这些心理学家认为,一个人的知觉场始终被分成图形与背景两部分。“图形”是一个格式塔(Gestalt),是突出的实体,是人们知觉到的事物;“背景”则是尚未分化的、衬托图形的东西。人们在观看某一客体时,总是在未分化的背景中看到图形的。重要的是,视觉场中的构造是不时地变化著的。一个人看到一个客体,然后又看到另一个客体。有时候客体一会儿是图形,一会儿又成了背景。说明这种现象的一个经典性例子是下面的这个图形与背景交替图,也叫鲁宾花瓶图。

当一个人观察鲁宾花瓶时,他也在进行思考或者推理。他的初级视觉皮质处理的信息被其视觉系统的高级层次用于和其它的信息,比如注意力或者心理预期,进行整合,从而产生对这个图片的感知解释。显然,鲁宾花瓶图片中对图形和背景的不同区分能够影响对这个图片的知觉解释。这个人能够以两种不同的方式感知边界的形状,但是同一时间只能看见一种解释。决定采用哪一种解释可以粗略地被认为取决于“注意力”的切换。因此,决定如何区分图片中的图形区域和背景区域的那部分视觉系统必须整合来自图片的信息和来自能够控制注意力的大脑其它区域的信息。怎么用玻尔兹曼机模拟来自图片的信息和与注意力相关的信息,对它们进行整合,从而获得感知解释呢?

玻尔兹曼机或者玻尔兹曼网络将收到两种类型的信息:1,图片提供的与边界的位置和朝向有关的信息;2,关于在图片的哪个位置聚焦注意力的信息。玻尔兹曼机的运算目的是把图片分成两个区域:图形区域和背景区域。我们先假设图片中只有一个物体,但是由于干扰或者损坏,这个物体的边界并不连续。因此问题被确定为如何识别哪些区域在物体的(不连续)边界之内,哪些区域在物体的(不连续)边界之外。

玻尔兹曼机的每个计算处理单元,即神经单元,代表了对计算过程非常重要的变量。神经单元之间的连接则被直接用于执行变量之间的约束条件;连接强度的值越大,约束条件越强。神经单元的状态,即on或者off,代表了关于图片的假设是正确还是错误。

每个神经单元都被设置为图片中的某个位置,并且以一种可重复的模式与图片相对应。每个神经单元都有自己的感受“视野”,不与相邻的神经单元重叠。

其中一类输入了图片中边界线的位置的神经单元叫做“边缘”单元。这些神经单元类似于人的视觉皮质中对方向敏感的神经元。但是,这些“边缘”单元还携带了图形相对于边界线的位置的信息。两个区域之间的线段可以用多种方式进行解释:可以认为这个线段在图形的这一边,可以认为这个线段在图形的另一边,也可以认为它只是图片中没有什么意义的“裂缝”。

另一种类型的神经单元,叫做“图形”单元,代表的是一小块图片是否为图形的一部分的假设。一小块图片是图形的一部分还是背景的一部分不仅仅取决于图片的轮廓,还取决于注意力的焦点。因此,“图形”单元阵列将直接收到来自有可能让其中一些“图形”单元偏离真实状态的来自另一个来源的输入信息。这种偏离不可能是决定性的,否则“边缘”单元提供的关于轮廓或者图形/背景边界线的信息将不起作用;来自图片的“自下而上”的信息必须与来自注意力的“自上而下”的信息达成平衡。

在计算过程中,图片中的轮廓和注意力产生的偏差保持不变,并分配给玻尔兹曼网络的可见节点,即边缘节点和图形节点,而同时,玻尔兹曼网络必须为内部所有的不可见神经网元节点找到能够最大程度地符合“自上而下”输入和“自下而上”输入的状态。一般来说,网络对图片中的物体的特点了解得越多,就可以在神经网元节点之间引入更多的约束条件,就能够更快地搜索到网络的最佳状态。需要注意的是,人的视觉系统在把图形与背景分开时,引入的约束条件远比玻尔兹曼机更多。

我们可以把问题再简化一下,不是识别一个花瓶,而是识别字母C。在“图形”单元中,注意力的强度用小方格的面积表示。面积越大,表示注意力越强。注意力的强度随着离开注意力中心的距离的增大而减少。注意力中心用四个参数来表示:两个参数表示注意力中心的二维坐标;另外两个参数表示注意力的强度和辐射宽度。

把“自上而下”的注意力放在字母C的里面和外面,能够产生两种分离效果,和人的视觉系统一样。

1985年的一个下午,大约20多位人工智能专家聚集在波士顿郊外的一个别墅。后来被誉为“深度学习神经网络”之父的Geoff Hinton给在座的每一位科学家分发了一篇关于玻尔兹曼机的论文,其中一位是Marvin Minsky。Marvin Minsky是导致人工神经网络的第一次高潮销声匿迹的主要旗手。上个世纪50年代,Rosenblatt发明了一个叫做Perceptron(感知机),能够通过自主学习区分画有不同标记的卡片。若干年之后,Marvin Minsky写了一本也叫《Perceptron(感知机)》的书,正确并清晰地指出了Perceptron(感知机)的数学缺陷:Perceptron(感知机)无法处理一个叫做“异或(XOR)”的逻辑操作。如果在一个正方形的卡片上印上两个圆形的印记,Perceptron(感知机)能够告诉我们它们都是灰色的,也能够告诉我们它们都是白色的,但它无法回答一个简单的问题,“它们是两种颜色吗?”。这说明在一些场景下,Perceptron(感知机)无法识别简单的模式,更不用说复杂的模式,比如航空照片、自然语言等等。很多人认为,这本书在接下来的15年内让基于学习的人工神经网络进入了冬天。

这一次,当Geoff Hinton详细介绍玻尔兹曼机的功能和内部数学架构时,Marvin Minsky没有像往常面对其他人工神经网络研究者那样直截了当地大声反驳。相反,他只是拿掉了论文的装订图钉,把每一张纸都摊在面前认真阅读,一言不发直到Geoff Hinton完成介绍。然后,Marvin Minsky一言不发地站起身,离开了房间,把属于他的那份论文留在桌上。

Geoff Hinton觉得,Marvin Minsky对于人工神经网络研究的真实态度有些复杂,或者可以说是一个人工神经网络研究的中途脱离者,即曾经热情地拥抱过人工神经网络,却因为其发展达不到期望而灰心丧气,但内心还隐隐希望将来它会实现最初的承诺。实际上Marvin Minsky也是人工神经网络的先驱之一。作为哈佛的毕业生,Marvin Minsky在上世纪50年代早期曾经用3000个真空管和从B-52轰炸机上拆下来的零件做了一个也许是世界上第一个人工神经网络,名字叫做SNARC,并不断研究其背后的数学基础。这些数学基础最终导致了Perceptron(感知机)的出现。

Geoff Hinton拿回了Marvin Minsky留在桌面上的论文。离开波士顿之后,Geoff Hinton把这份论文邮寄到Marvin Minsky的办公室,并留了一张纸条:“您可能不当心忘拿了东西!”。

发表回复

相关推荐

<真懂和装懂,就差这一点儿>阻尼究竟是什么鬼? | 老埃百科

玩车的朋友都知道避震器的阻尼调节,不管是跑街还是下赛道,要舒适还是要操控,都要调阻尼。可是有一天同事问老埃:【阻尼】 ...

· 9秒前

俄罗斯旅游攻略在此,不了解的赶紧来看看吧!!!

2019年 有个国家默默开了挂 旅游价格超级优惠 也许你听过它的名字 却不知道它有多令人痴迷 它的领土面积世界第一 它还美得傲 ...

· 57秒前

大布黄千,改革家王莽的凄美绝唱!

大布黄千钱文的书体,无疑也是精美的悬针篆。“黄”字和“千”字末笔悬针的尖锐程度则非常强烈而醒目。王莽钱的艺术价值却远远超 ...

· 1分钟前

光果甘草提取物——光甘草定,护肤界的美白黄金!

甘草是我国中药材的最主要品种之一,在中医上应用频率极高,素有“十方九草”之称。

· 2分钟前

有哪些啞光的口紅是值得推薦的

啞光口紅色調沉著,著色容易著色度高,效果比較持久,但是缺點就是容易幹燥,但是這個問題在塗口紅前先塗個潤唇膏就能解決瞭...

· 2分钟前