杏彩体育平台app打破大模型黑盒彻底分解神经元OpenAI对头Ant
距离破解大模型「黑箱」难题又近了一步!近日,来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法,从512个神经元中提取出来了4000多个可解释特征。
模型开发人员只能决定算法、数据,最后得到模型的输出结果,而中间部分——模型是怎么根据这些算法和数据输出结果,就成为了不可见的「黑箱」。
「如果我们能够理解模型中的神经网络是如何工作的,那么诊断模型的故障模式、设计修复程序,并让模型安全地被企业和社会采用就将成为触手可及的现实!」
例如,在一个小型语言模型中,单个神经元在许多不相关的上下文中都很活跃,包括:学术引文、英语对话、HTTP 请求和韩语文本。
而神经元多语义的一个潜在原因是叠加,这是一种假设的现象,即神经网络通过为每个特征分配自己的神经元线性组合,来表示数据的独立「特征」多于它的神经元数量。
如果将每个特征视为神经元上的一个向量,那么特征集就构成了网络神经元激活的一个过完备线性基础。
在Anthropic之前的Toy Models of Superposition(《叠加玩具模型》)论文中,证明了稀疏性在神经网络训练中可以消除歧义,帮助模型更好地理解特征之间的关系,从而减少激活向量的来源特征的不确定性,使模型的预测和决策更可靠。
因此,这次Anthropic的研究人员使用了一种称为稀疏自动编码器的弱字典学习算法,从经过训练的模型中生成学习到的特征,这些特征提供了比模型神经元本身更单一的语义分析单位。
具体来说,研究人员采用了具有512个神经元的MLP单层transformer,并通过从80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围从1×(512个特征)到256×(131,072个特征)。
为了验证本研究发现的特征比模型的神经元更具可解释性,采用了盲审评估,让一位人类评估员对它们的可解释性进行评分。
此外,研究人员还采用了「自动解释性」方法,通过使用大型语言模型生成小型模型特征的简短描述,并让另一个模型根据该描述预测特征激活的能力对其进行评分。
现象分析,描述了特征的几个属性,包括特征分割、普遍性,以及它们如何形成类似于「有限状态自动机」的系统来实现复杂的行为。
但对这份研究报告,Anthropic认为想要将本研究报告中小模型的成功复制到更大的模型上,我们今后面临的挑战将不再是科学问题,而是工程问题。
而这意味着为了在大模型上实现解释性,需要在工程领域投入更多的努力和资源,以克服模型复杂性和规模带来的挑战。
包括开发新的工具、技术和方法,以应对模型复杂性和数据规模的挑战;也包括构建可扩展的解释性框架和工具,以适应大规模模型的需求。
杏彩体育平台app 上一篇:AMEsim信号处理之有限状态机内部变量的声明 下一篇:打开神经网络的黑盒:分解神经元特征让复杂模型变得简