021-3391 0332ENGLISH

杏彩体育平台app打开神经网络的黑盒:分解神经元特征让复杂模型变得简

  近年来,随着人工智能技术的飞速发展,神经网络已经成为了研究的热门对象。然而,神经网络内部的运作机制一直充满了神秘和复杂性,人们始终难以直观理解它是如何进行决策的。

  为了解释看似异常复杂的神经网络,首要任务是将其分解为易于理解的组件。通过理解每个组件的功能以及它们之间的相互作用,我们可以推断神经网络的运作原理。

  然而,分解神经网络并非一项简单的工作。神经网络中最自然的计算单元——神经元,并非人类可以轻松理解的具有单一功能的自然单位,而是呈现多义性,即对看似无关的输入混合作出响应。比如,在视觉模型Inception v1中,一个单独的神经元会同时对猫的脸和汽车的正面作出响应。

  这种多义性的一个潜在原因是神经元的叠加现象。这是一种假设现象,即神经网络通过线性地组合神经元来表征远大于神经元数量的数据特征。这种叠加使得小型神经网络利用特征稀疏性和高维空间的特性来近似模拟规模更大、更稀疏的神经网络。

  为了深入理解神经网络的工作方式,来自Anthropic研究者们借助稀疏自编码器,试图从神经网络内部复杂的神经元叠加中分解出具有单一语义的特征,来揭示神经网络内部的奥秘。这项研究成功将复杂Transformer模型的激活模式分解为简洁、可解释的特征,这些特征响应特定输入,并且能通过调整特征值影响网络行为。

  大量研究表明,神经网络在激活(神经元的激活值)空间中具有可解释的线]。研究者认为,既然线性方向是可解释的,那必然存在一些可解释的高维方向。这些方向被称为特征,也是研究者希望将模型分解为的组件,这些特征往往具有单一的可解释的语义。

  1. 能够解释每个特征激活的条件,即能描述哪些数据点会导致特征激活,并且这种解释是有意义的。

  这样的特征分解能够使研究人员进行可解释的神经网络分析与调控。比如,能够确定特定示例中特征对层输出和下一层激活的贡献,能够监视网络以检测特定特征的激活与否,通过改变特征的值可预测地改变网络行为,展示网络学到的数据属性,展示网络在生成特定示例的输出时使用了哪些数据属性,能够设计输入以激活特定特征并引出特定输出等。

  根据这些分解原则,研究者针对Transformer模型中具有ReLU激活函数的单层MLP(多层感知机)展开了研究,试图提取其激活并将其分解为“特征”。在某种意义上说,MLP模型是语言模型中最简单但也最难以解释的部分。

  研究者也表示,选择单个MLP层进行分解的原因之一是特征分解的维度诅咒。随着模型规模的不断扩大,那些需要解释的代表模型内部状态的潜空间的体积会呈指数增长。

  研究者试图利用词典学习的线性矩阵因子分解方法,将激活向量xj分解为更一般的特征的组合,这些特征可以是任何高维方向:

  其中xj是神经网络对于数据点j的激活向量,fi(xj)是特征i的激活,每个di是特征方向,代表激活空间中的单位向量,b是偏置。

  从表面上看,从神经元激活(即特征的叠加)中恢复原本的特征似乎是不可能的,这要求从低维投影确定一个高维向量。换句话说,这就像试图反转一个长宽比极大的矩形矩阵。唯一使其可能的因素是我们正在寻找的高维向量是稀疏的。

  这就是著名的压缩感知问题,需要采用复杂的词典学习方法[5]。研究者尝试了大量传统的词典学习方法后,选择使用稀疏自编码器对词典学习进行近似,以实现特征分解。

  研究者选择稀疏自编码器主要基于两个原因:首先,稀疏自编码器作为一种神经网络能够轻松应用到非常大的数据集上;其次,使用稀疏自编码器能够避免从模型本身无法访问的激活中恢复特征。

  其中We是编码器的权重矩阵,bd和be是预编码器和编码器的偏置,特征方向是权重矩阵的列(具体设置可参考论文原文)。

  研究者强调,如果存在这样的稀疏分解,这就提出了一个重要问题:从根本上说,模型是否由特征组成,还是特征只是一种方便的事后描述?在这项工作中,研究者持中立立场。但研究者对特征普遍性的研究结果表明,特征在单个模型之外具有某种普遍性的存在。

  将模型分解为这些特征组件是神经网络可解释性工作的开始,这为解释工作提供了突破口,让研究者能够深入了解模型内部工作,并建立更广泛的模型理解。

  本项工作中最重要的观点之一是,字典学习可以提取比神经元更具单一含义的特征。因此,研究者对一些特定特征进行了详细的演示,这些特征仅在高度特定的上下文中被激活。

  此外,研究者着力展示每个特征的特异性,即一个特征只在某些相对罕见和具体的上下文中激活,这对于排除多义性十分重要。

  在本项工作中,研究者以编号为A/1/3450(A为模型编号;1为实验设置编号,越大表示特征数量越多;3450为特征编号)的一个阿拉伯文字特征为例进行了具体分析,并对以上声明进行了证明。这个特征非常具体,对阿拉伯文字的敏感性相对较强。更重要的是,如果以单个神经元的视角查看模型,这类行为几乎无法发现。

  在整体数据分布中,阿拉伯文本非常罕见,仅占0.13%的训练token。但在所有能够激活特征A/1/3450的token中,这些阿拉伯token占到了81%。这证明该特征几乎只对阿拉伯文字的文本产生激活。

  此外,研究者发现尽管该特征只会对阿拉伯文字作出高度特异性的响应,但也会对一些阿拉伯文字做出低活跃度的响应。研究者猜测这可能是因为模型本身不够精准、或者是自编码器不够完善导致的,因为自编码器的宽度可能小于模型正在使用的“真实特征”的数量。

  实验证明,A/1/3450并不对阿拉伯文字中的所有token都敏感。在随机数据集示例中,它在前缀“ال”(相当于英语中的定冠词“the”)的五个示例中未能触发。然而,在这些示例中,另一个特定于阿拉伯文字的特征A/1/3134会被激活。此外,当一个阿拉伯字符被拆分为多个token时,A/1/3450只会在构成字符的最后一个token上触发,而A/1/3399会在构成字符的第一个token上触发。这展示了这些特征之间的协作关系。

  此外,研究者还度量了特征的活跃度与阿拉伯文字的活跃度之间的皮尔逊相关系数。这种度量综合考虑了敏感度和特异性,相关系数达到了0.74,表明存在相当显著的相关性。

  研究者表示,字典学习所得到的特征能够对模型的输出产生可解释的因果效应,并且与特征的激活水平相一致。换句话说,可以通过控制特征的激活水平来引导模型的输出。

  为了验证这一观点,研究者进行了一个有趣的实验。实验中让模型预测以前缀1、2、3、4、5、6、7、8、9、10开头的后续序列,并固定特征A/1/3450为最大值。实验结果显示,模型会生成由阿拉伯文字组成的后续序列,而不加干涉时则会生成数字序列。因此,研究者确信这些特征与网络中MLP的功能真正相关,而不仅仅是基础数据的一个特性。

  为了证明这一点,研究者分别统计了每一个神经元以及能够最激活它们的20个文本数据示例(TOP 20)。研究结果显示,仅有一个神经元的TOP 20中包含阿拉伯文本,且仅有一个阿拉伯示例,其余的十八个示例是英文,一个是西里尔文。因此,单一的神经元无法充分表达A/1/3450所表达的语义。

  更直观的是,研究者找到了与特征A/1/3450最相关的神经元A/neurons/489,发现A/neurons/489会对多种不同的非英语语言产生响应,而阿拉伯文字符只占很小一部分。这进一步佐证了这些特征不是单个神经元的简单对应,如果仅根据神经元进行分析,那么阿拉伯文的特征将几乎无法发现。

  研究者认为A/1/3450可能是一种通用特征,并且可能在其他模型中出现。研究者对另一个Transformer模型(同样训练数据但不同训练种子)使用稀疏自动编码器进行特征分解,找到了和A/1/3450具有极高相关性的特征B/1/1334,其相关性为0.91。

  为了进一步验证,研究者在B/1/1334上进行与A/1/3450相同的实验,而实验结果都十分相似,这进一步证明了特征可能在模型之间普遍存在。

  在本项工作中,研究者还对DNA、Base64和Hebrew特征进行了类似的分析。此外,他们制作了一个可视化的网站,用来展示所有特征以及相应的语义、相关神经元和示例。

  首先,研究者对所有特征的可解释性进行了实验,实验中采用了三种解释方法,包括人工解释和两种利用AI的自动解释。实验结果表明,尽管并非所有的特征都具有很高的可解释性,但所有三种方法都一致地显示,特征的可解释性明显高于神经元。

  值得一提的是,在A/1自编码器中学到的4096个特征中,有168个是“死”的(在1亿数据集中没有激活),有292个是“超低密度”的(在百万分之一以下的数据集示例中激活),并且具有一些其他非典型特性。

  其次,研究者试图衡量这种基于特征分析的解释方法对模型的解释程度。换句话说,他们想了解,“这些特征覆盖了模型功能的多少?是否完全覆盖了?”

  研究者通过将MLP的激活值替换为稀疏自动编码器的输出值(即特征激活值),来尝试衡量这一点。结果显示,仅在MLP的对数似然损失。


杏彩体育平台app 上一篇:打破大模型黑盒彻底分解神经元OpenAI对头Ant 下一篇:如何利用Linux下的工具来自动生成实用的状态机框

相关推荐