同城医药问答网

 找回密码
 立即注册
查看: 147|回复: 1

【论文笔记】Explainable neural networks that simulate ...

[复制链接]

2

主题

6

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2022-9-23 18:45:10 | 显示全部楼层 |阅读模式
Explainable neural networks that simulate reasoning

模拟推理的可解释神经网络
nature 2021
原文地址:https://www.nature.com/articles/s43588-021-00132-w
Abstract

深度神经网络的成功表明认知可能来自难以理解的分布式神经活动模式。但是神经网络中类似黑匣子的结构不足以让人理解神经信息处理,因此,本文展示了神经回路如何通过简单的神经生物学原理直接编码认知过程。作者在基于非梯度的机器学习算法中实现了该模型,以训练成文本质神经网络(ENN)的神经网络。ENN可以模拟类似深思熟虑,符号推理等更高的认知功能,同时它也会显示与大脑相关的网络属性,如模块化,分布式以及对抗鲁棒性。ENNs建立了一个广泛的计算框架来破译认知的神经基础。
简介

符号AI可以给模型提供许多认知上的帮助,然而符号 AI 忽略了认知的神经基础,并且仅限于专门或简单的任务,因为它需要手动特征管理。而联结主义则模拟神经元之间的相互活动,将认知过程视为神经网络中电流的涌动。虽然取得了成功,但是现有的深度神经网络仍面临着限制其使用的基本限制,他们普遍被认为是黑匣子,且对于如何将特征映射到输出的深层,没有定量的解释。此外,深度学习也无法进行符号操作和其他认知过程,如高级推理和深思熟虑。深度学习不能进行泛化分布,且需要大量数据集,并且它容易被一些小的噪声扰动。
在本文中,作者开发了一个简单但可扩展的神经信息处理神经认知模型,其中每个神经元都是层次网络中的专门决策代理。同时在通用机器学习算法中实现了它,用于分类任务等。这些网络表现良好。
Results

在神经网络中直接编码认知操作。 因为给定的神经元会针对某些刺激而不是其他刺激而激发,所以它的活动代表了这两组可能输入之间的区别。在模型中,每个神经元都会做出两种区分之一:绝对的和相对的,以下图举例:


“概念神经元”在相似刺激的特定子集(即概念)和所有其他可能的刺激:例如,图 1a 中的“像 B”与“不像 B” 之间做出绝对区分。
“微分神经元”对来自两个不同概念的刺激进行了相对区分:例如,图 1a 中将“更像 A”与“更像 B”分开的虚线。
通常,一个概念可能无法用单个神经元绝对区分(例如,在上图中,B 不是线性可区分的),因此它必须使用多个上游差分神经元的输出来区分它。 此外,概念神经元还可以接收来自相关概念神经元的输入,使它们能够整合概念的层次结构。 这对于需要划分为子概念的复杂、非凸概念(例如,具有多个定义的单词)尤其重要。这两个连通性原则可以概括为(1)神经元在概念之间做出相对或绝对的区别,(2)网络分层整合相关的区别。
ENN的结构

为了测试这个模型是否足以模拟神经系统中的推理,作者用它来构建人工神经网络,称之为本质神经网络 (ENN)。下图展示了ENN的基本层:


基本架构:


基本ENN:(1)接受输入(2)传递给所有微分(3)确定与子概念的相似性(4)选择最佳概念输出。
适当的神经链接也可以直接从概念空间的结构中推断出来:



微分神经元形成初始区别,下游子概念神经元形成以微分超平面区别为界的子区域。 概念神经元通过统一上游子概念子区域形成最终区域。
本文开发了一种机器学习算法,可以针对任意分类问题训练ENN。对于基本的ENN,首先从每个概念中获得训练样本并划分为子概念。微分神经元通过计算每对子概念之间的SVM生成,用以区分每个子概念和不同的子概念。                                                                                                                                                         
ENN与传统的基于优化的深度学习不同,没有使用反向传播和随机梯度下降,且训练时间短,在MNIST和CIFAR10上的精准度与标准梯度下降网络(GDN)相当。
ENN的可解释结构和功能

为了证明可解释性,作者分析了MNIST数据集上训练的ENN,还在具有水平或垂直方向矩形的合成数据集上对其进行了测试。GDN 在图像像素和第一层神经元之间的权重中显示出最小的可理解结构:


而 ENN 差分神经元权重很容易解释,因为它们是通过线性 SVM 设计的。 这可以从视觉上理解:区分与特定子概念相关的正权重像素和不同子概念的负权重。


在ENN中,每个子概念神经元只需要来自其他相关微分的输入。它们可以连接到所有差异的神经元,但是子概念神经元严重依赖于这些相关的差异。为了分析模块化,作者将每个神经元的正负传出连接拆分为单独的兴奋性和抑制性神经元。每个分裂的神经元被分配到一个组,根据哪个输出受神经元放电的影响最大。按组对每个连接矩阵进行排序证明了ENN的模块化,组内权重与组间权重之间存在可测量的差异:


此外,ENN 分层分离分布式和局部触发模式,在差异层中分布触发:


在子概念和概念层中进行局部触发:


GDN 隐藏层显示没有本地化触发。 这些结果表明,生物学上观察到的分布式和局部放电的分离可能是分层分离的相对和绝对神经区别的特征。
ENN推理分析和灵活设计

功能的可解释性允许解释正确的预测和错误,这是非常有必要的,例如在MNIST上可以识别产生错误的差分神经元:


这些用于识别图像中缺失的可能阻止错误的特征,以及导致错误的误导特征。于其他错误,图像以最佳方式激活了一个正确的子概念神经元,但多个输出较低的错误子概念神经元组合起来超过了正确的子概念:


ENN 固有的模块化允许网络大幅缩减,但仍保留选定的概念。 当逐步删除子概念神经元时,ENN 一次丢失特定输出类别的准确性,而 GDN 表现出不可预测的、非单调的功能损失:


结构的可解释性允许灵活设计更复杂的架构。 例如,本文提出了一种训练卷积 ENN的基本方法。 从子图像中学习特征,然后局部连接的子概念神经元用作卷积滤波器。 在卷积层的最后,训练一个基本的 ENN 以产生最终输出,产生类似于大小匹配的卷积 GDN 的精度。
一个ENN可以被设计成明确地整合多个独立的观点以形成更强的共识。 共识 ENN 的一个简单示例具有多个相互独立学习的重叠子概念集,本文通过学习第二个完全无监督的子概念集来实现。对于固定大小的 ENN,改变来自第二个重叠集的子概念数量的比率提高了基本 ENN 的性能:


通过一些初步结果可以表明,ENN还有改进潜力(类似GDN中的数据增强,正则化等)
跨领域泛化的学习算法

ENN 是可以解释的,因为每个神经元都执行计算与相反概念相似度的象征性任务。符号表示对于推理是必要的,离散符号特别有用且易于分析。符号表示对于推理是必要的,离散符号特别有用且易于分析。因此,本文测试了 ENN 是否足以通过使用输出仅为 0 或 1(或 0.5 的关系)的神经元来模拟离散符号推理。符号推理对于从指导性示例中学习规则并将其应用于不同但相关的问题尤为重要。这被称为单域泛化,其中在单个样本分布上训练的模型在没有额外训练的情况下泛化到看不见的目标分布。
本文训练了一个符号 ENN 和大小匹配的 GDN,以区分图像中形状的垂直和水平方向,仅使用 56 个仅包含全长垂直或水平白色条纹的 28×28 图像:



符号 ENN 是可解释的,这意味着我们可以轻松地将其权重转换为等效的伪代码(补充文本),这表明符号 ENN 可用于自动代码生成。同时本文评估了网络对几个目标测试集的泛化程度:



与GDN不同,ENN在上面表现完美、同时,如果在符号ENN权重中添加随机扰动并作用于GDN训练的初始参数,一旦扰动超过1-3%,梯度下降就无法训练一个泛化良好的网络。
从简单问题进行概括是设计贪婪算法启发式算法的基础,例如 NP-hard 问题,其中研究得最好的问题之一是布尔可满足性 (SAT) 问题 。作者在两个具有不同数量的非空子句的目标数据集上测试了训练后的网络。GDN和ENN都可以进行训练,但GDN泛化效果不好。再次将ENN权重转换为等效的伪代码后,会优于纯贪心算法的效果,这种性能差异随着 ENN 在逐渐变大的公式上的训练和测试而增长。
针对其他的NP难问题训练符号ENN:旅行商问题(TSP)和最优二叉树决策(BDT)问题。对 ENN 的分析和对伪代码的转换表明,在 TSP 上,ENN 发现了最近邻贪心启发式算法,而在 BDT 问题上,ENN 学习了一种性能与标准分类和回归树 (CART) 算法相似的算法 。 总之,这些结果表明,符号 ENN 可以从任务的简单实例中学习人类可理解的算法,从而将分布外泛化到复杂实例。
ENN 对输入噪声和对抗性攻击的鲁棒性

符号推理更加健壮,因为它做出了明确的区分。作者通过对真值表的所有 64 个条目进行训练来同时学习所有 16 个双输入布尔函数(例如,AND、OR、NAND、XOR)来测试这一点:



ENN 权重很容易解释并直接转换为逻辑电路:



​        这部分本人没太看懂在做啥,大致就是为了证明ENN的健壮性?
为了测量高维问题的输入和决策边界之间的分离,作者获取了单独的测试集图像,并针对不同类别的图像或白噪声进行插值。沿着这些轨迹可以找到网络最近的决策边界。可以发现GDN和ENN在图像之间具有相似的空间决策边界。然而,进行插值后,ENN的决策边界间距比GDN更远,表明它更稳健,对噪声的容忍度更高。
使用快速梯度方法针对GDN和ENN生成对抗性图像,并测量每个图像欺骗其网络所需的最小扰动。测试后发现ENN不仅对自我对抗的鲁棒性比GDN高几倍,且不容易被对于GDN设计的对抗性愚弄。在MNIST上,针对ENN设计的对抗性图像比ENN更能欺骗GDN。这似乎也有可解释性(但是作者没解释)
Discussion

基本 ENN 在设计上与 Voronoi 神经网络 (VNN) 最相似,VNN 使用 Voronoi 镶嵌来学习所有单独训练点之间的超平面分离,然后将它们与 AND 和 OR 门结合(从而实现一个最近邻分类)。一个关键区别是ENN学习聚合概念和子概念,而不是记忆训练集,这允许ENN可以扩展到训练集上,而不受指数缩放的影响。
该模型旨在简历解释认知神经基础的原则。在过程中,ENNs自然地表现出类似大脑的涌现特性,例如稀疏和模块化连接等,且它还应该非常适合模拟其他神经现象。作者还提出了几个经过充分研究的神经甚至非神经网络,可能与ENN模型相关:
ENN结果和学习算法简单,因此有很大的改进潜力,例如增加网络规模,改进滤波器等。所以GDN在ENN发展之前仍是强大的工具。然而,ENN可解释性和推理可以让根本不同类型的能力成为可能。总而言之,这项工作展示了足以在神经网络中进行符号认知的基本原理,以及如何在 AI 系统中对其进行模拟以克服当前的限制并扩展其能力。
个人总结

本文开创性地设计了ENN网络框架,旨在从神经符号方面来对分类问题做出一定的贡献。它的基本思路就是利用SVM设计一个神经元,使得一个子概念可以与其他不同的子概念区分开,在下游超平面中分开后,在上游概念中就可以完全的完成分类任务。比起传统的深度神经网络,ENN具有可解释性和更强大的健壮性。但是ENN还有许多可以发展的内容,因此围绕ENN进行改进(类似在深度网路中的增加层数,数据增强等)可能会进一步提升ENN的效果。
回复

使用道具 举报

4

主题

8

帖子

18

积分

新手上路

Rank: 1

积分
18
发表于 2022-9-23 18:45:34 | 显示全部楼层
SVM型神经元+概念区分训练。不知道在nlp任务上怎么样?可解释性又怎么能更显著?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|同城医药问答网

GMT+8, 2025-7-8 15:37 , Processed in 0.084691 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表