杏彩体育平台app打破大模型黑盒彻底分解神经元OpenAI对头Ant

　　距离破解大模型「黑箱」难题又近了一步！近日，来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法，从512个神经元中提取出来了4000多个可解释特征。

　　模型开发人员只能决定算法、数据，最后得到模型的输出结果，而中间部分——模型是怎么根据这些算法和数据输出结果，就成为了不可见的「黑箱」。

　　「如果我们能够理解模型中的神经网络是如何工作的，那么诊断模型的故障模式、设计修复程序，并让模型安全地被企业和社会采用就将成为触手可及的现实！」

　　例如，在一个小型语言模型中，单个神经元在许多不相关的上下文中都很活跃，包括：学术引文、英语对话、HTTP 请求和韩语文本。

　　而神经元多语义的一个潜在原因是叠加，这是一种假设的现象，即神经网络通过为每个特征分配自己的神经元线性组合，来表示数据的独立「特征」多于它的神经元数量。

　　如果将每个特征视为神经元上的一个向量，那么特征集就构成了网络神经元激活的一个过完备线性基础。

　　在Anthropic之前的Toy Models of Superposition（《叠加玩具模型》）论文中，证明了稀疏性在神经网络训练中可以消除歧义，帮助模型更好地理解特征之间的关系，从而减少激活向量的来源特征的不确定性，使模型的预测和决策更可靠。

　　因此，这次Anthropic的研究人员使用了一种称为稀疏自动编码器的弱字典学习算法，从经过训练的模型中生成学习到的特征，这些特征提供了比模型神经元本身更单一的语义分析单位。

　　具体来说，研究人员采用了具有512个神经元的MLP单层transformer，并通过从80亿个数据点的MLP激活上训练稀疏自动编码器，最终将MLP激活分解为相对可解释的特征，扩展因子范围从1×（512个特征）到256×（131,072个特征）。

　　为了验证本研究发现的特征比模型的神经元更具可解释性，采用了盲审评估，让一位人类评估员对它们的可解释性进行评分。

　　此外，研究人员还采用了「自动解释性」方法，通过使用大型语言模型生成小型模型特征的简短描述，并让另一个模型根据该描述预测特征激活的能力对其进行评分。

　　现象分析，描述了特征的几个属性，包括特征分割、普遍性，以及它们如何形成类似于「有限状态自动机」的系统来实现复杂的行为。

　　但对这份研究报告，Anthropic认为想要将本研究报告中小模型的成功复制到更大的模型上，我们今后面临的挑战将不再是科学问题，而是工程问题。

　　而这意味着为了在大模型上实现解释性，需要在工程领域投入更多的努力和资源，以克服模型复杂性和规模带来的挑战。

　　包括开发新的工具、技术和方法，以应对模型复杂性和数据规模的挑战；也包括构建可扩展的解释性框架和工具，以适应大规模模型的需求。

KP13G系列