在努力复制人类智能的过程中,人工智能(AI) 研究融合了计算机科学、认知神经科学、计算科学和其他一系列领域的见解,以产生能够在可以说是核心的方面提高效率的算法智力要素:学习。
在 AI 的众多学习算法中,值得注意的是人工神经网络(ANN) 及其许多变体。人工神经网络是相互连接的人工神经元的集合,它们逐渐从环境中学习并试图模仿大脑中的一些基本信息处理过程。
它们的功能由在神经元级别执行的处理、神经元之间的连接强度(突触权重)和网络结构(神经元的组织和连接)定义,这是本文讨论的核心。
在它们的整个演变过程中,浅层 ANN 在需要更高抽象级别的复杂应用程序的上下文中仍然存在多个问题。
然而,随着处理能力的快速提高,最近出现了成功实现更深层次架构的计算要求高的设计的机会。
Hinton 等人的贪心算法 等高效训练算法的发展也帮助了 ANN 的复兴。
此外,计算神经科学的发现引起了人们对受生物学启发的深层架构的兴趣增加,它更忠实地坚持人脑拓扑的神经科学理论。
在这次文章中,我们将比较研究的范围限制在两个现在流行的算法:Hinton 等人的深度信念网络 (DBN) 和皮质算法 (CA)。
虽然已经开发了许多其他深度架构,包括用于顺序数据处理的长短期记忆和用于图像处理的卷积神经网络,但这项比较研究比较了前馈架构。
具体来说,DBN 是一种更高效的深度架构训练算法,与 CA 相比,CA 是一种具有更符合生物学特性的前馈架构。
深度神经网络(DNN),特别是 DBN,以其传统形式呈现为 ANN 的最先进技术,其网络拓扑由神经元模型层构建,但具有更先进的学习机制和更深层次的架构,而无需对构成人类智能的详细生物现象进行建模。
与 CA 相比,保持生物建模的高级抽象,导致 DBN 的数学模型更简单。另一方面,如 Edelman 和 Mountcastle 的工作所述,CA 代表了向合并比 DBN 更多受生物学启发的结构的转变,如皮质柱以及抑制和加强学习规则。
尽管神经科学和技术的进步已经允许对大脑结构进行详细描述,但大脑中的学习过程尚未完全理解。在生物学上,大脑主要由大脑、小脑和脑干组成。
大脑皮层,在生物学上被定义为大脑组织的外层,被认为负责高级功能,估计有 250 亿个神经元通过数千公里的轴突相互连接并在周围传播和扩散1014突触同时,排列成六层并分为区域,每个区域执行特定任务。
虽然目前还不清楚大脑中的某些区域是如何变得特化的,但众所周知,多种因素会影响大脑区域的功能特化,例如结构、连通性、生理学、发育和进化。
神经元,被认为是大脑中的基本元素,具有不同的形状和大小,但都是相同基本方案的变体,即它们启动相同的通用功能,但变得专门用于训练。
虽然树突是接收突触输入的场所,轴突可以远距离传输电信号。对神经元的输入会导致神经元状态发生缓慢的电位变化;其特性由允许时间总和的膜电容和电阻决定。
研究表明,皮层的组织可以看作是柱状单位的联合体,每个柱状体都是一组具有相同属性的节点。
人脑的学习主要是通过塑料连接、反复接触以及神经元的放电和抑制来进行的。
以简化的方式,信息在大脑皮层中流动会导致大脑中的连接变得活跃,随着时间的推移,随着反复接触,这些连接会得到加强,从而创建大脑中处理的信息的表示。
此外,抑制神经元——物理上定义为禁止神经元放电—部分解释了遗忘过程。
在节点级别,ANN 从简化的 McCulloch-Pitts 神经模型 (1943) 开始,该模型由具有确定性二元激活函数的基本求和单元组成。继任者在每次迭代中都增加了复杂性。
在激活函数层面,线性、S形和高斯函数开始使用。输出不再局限于实数值,而是扩展到复数域。
确定性模型让位于模拟离子交换的随机神经元和脉冲神经元。所有这些添加都是为了实现更复杂的学习模型。
在网络层面,拓扑开始于单层架构,例如 Rosenblatt 的感知器 (1957)、Widrow 和 Hoff 的ADALINE网络 (1960)和 Aizerman 的内核感知器 (1964)。
这些架构性能不佳,无法学习 XOR 问题,这是一个简单但非线性的二进制分类问题。
这导致引入了更复杂的网络,从多层感知器(Rumelhart,1986)、自循环Hopfield 网络(1986)、自组织映射(SOM 或 Kohonen 网络,1986)开始,自适应共振理论(ART)网络(1980 年代)和其他各种由于隐藏层数量少而被认为是浅层架构的网络。
连续的迭代逐渐改进了他们前辈的缺点,并承诺提供更高水平的智能,由于硬件计算能力的改进以及更快、更有效的训练和学习算法的发展,这一主张部分可行。
学习机制,无论是有监督的(反向传播)还是无监督的(前馈算法),都同时成熟并允许在各种特定任务中获得更好的性能。
尽管如此,针对这些浅层网络的所有方面的创新的复合效应不足以捕捉真正的人类智能,而大量的计算需求阻碍了更深层次网络的进步。
监督学习提出了许多挑战,包括维数灾难,其中特征和训练样本数量的增加使得学习对计算的要求更高。
此外,由于固有的特征重叠,非线性数据更难划分类别。由于无法将自己定位为强大的AI模型——Kurzweil 定义的一般智能行为——可以忠实地模拟人类智能,ANN在 1990-2000 年代落后于支持向量机(SVM)。
2000 年代初期,由于处理能力的提高和更高效的训练算法的引入使训练深度架构变得可行,ANN 研究重新兴起。
Hinton 等人的贪婪训练算法简化了玻尔兹曼机的训练过程,而深度堆叠网络将训练分解为深度网络的构成块,以减轻计算负担。
此外,Schmidhuber 的长短期记忆架构允许训练更深的递归神经网络。虽然这些架构并没有从神经元以外的大脑中借用生物学特性。
但具有神经网络拓扑结构的深层架构更忠实地遵守人脑拓扑结构的神经科学理论,在联结主义社区中越来越受欢迎,部分原因是在计算神经科学。
Edelman 和 Mountcastle在该领域作出了一项重要且最相关的贡献。他们的发现导致从将简化的神经元模型定位为架构的基本功能单元转变为将该角色提升到皮质柱。
即以共同的前馈连接和强抑制性相互连接为特征的细胞集合。这为学习和形成早期 ANN 所没有的感觉模式的不变表示提供了一种生物学上可行的机制。
此外,两项补充发现被认为是模拟人类智能的关键。第一个是怀疑新皮质中存在通用计算算法。
无论潜在的智力如何,这种算法在这些地区都很普遍。无论任务是视觉、听觉、嗅觉还是其他,大脑似乎都以非常相似的方式处理感官信息。第二个是人类新皮质的层次结构。
大脑的区域是分层连接的,因此信息的双向流动合并到每一层的更复杂的表示中,进一步抽象感官刺激。
这两项发现的结合构成了构建复制人类智能的框架的潜在基础;实现通用算法的受生物学启发的功能单元的层次结构。
这些来自神经科学的新颖见解已反映在机器学习(ML) 和 AI 领域,并已在多种算法的不同层中实现。
虽然 CA根据 Edelman 和 Mountcastle 的发现重构了神经元及其连接以及学习算法,但其他算法模拟了大脑工作的其他生物学理论。
诸如自适应思维特征 (ACT-R)之类的符号体系结构对工作记忆进行了建模,并在需要时引用了长期记忆的集中控制。
层级时间记忆 (HTM)等涌现主义架构基于全球主义记忆模型,并使用强化或竞争性学习方案来生成其模型。
集成两类架构以形成混合架构也存在包括学习智能分布代理(LIDA)。
DNN是浅层 ANN 架构的更深层扩展,它由生物神经元的简化数学模型组成,但并不像 CA 或其他一些 ML 方法那样旨在忠实地模拟人脑。
DNN 基于 Neocognitron,一种受生物启发的图像处理模型,试图通过知识的分层抽象来实现强大的人工智能模型。
信息表示是在数据通过网络传播时学习的,较浅的层学习低级统计特征,而较深的层建立在这些特征的基础上以学习更抽象和复杂的表示。
由于缺乏清晰的逻辑推理技能,DNN 需要更多的变形才能以人类的方式整合抽象知识。
递归神经网络和卷积神经网络于 1980 年代首次引入,可以被视为 DNN 的前身,并使用自 1974 年以来可用的反向传播进行训练。
七、结论
在这项工作中,我们在监督分类问题上比较了两种 DNN 架构。虽然 DBN 可以很容易地被视为从传统 AI 角度开发的成熟技术,但 CA 更受生物学启发,可以归类为正在形成的理论,扎根于从神经科学研究中继承的原则。
在对 CA 和 DBN 进行经验比较之前,提出了两种算法的理论计算复杂性分析。根据分类精度比较多个 CA 和 DBN 网络架构以及由此产生的网络连接。
CA 使用六层架构在大多数数据库上实现了最佳性能,其中隐藏层的隐藏神经元数量减少。
结果表明,较深的 CA 网络的连通性低于较浅的 CA 网络。此外,DBN 没有修剪与 CA 训练算法一样多的连接。在测试的数据库上,CA 的分类准确率普遍高于 DBN。
在这项工作的范围内,我们试图为读者提供每个算法的足够背景和技术细节,同时理解主题的广度需要包含更多涉及的见解。