杏彩体育平台app分解大模型的神经元Claude团队最新研究火了网友

　　ChatGPT最强竞对Claude背后的公司Anthropic，利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。

　　具体而言，神经元具有不可解释性，但经过这一分解，Anthropic发现每一个特征都代表了不同的含义，比如有的分管DNA序列，有的则表示HTTP请求、法律文本等等，也就是具备了可解释性。

　　而一旦我们能够了解语言模型的工作原理，就能很容易地判断一个模型是否安全，从而决定它是否应该被社会和企业所采用。

　　例如，一个小型语言模型中的某个神经元会同时对学术引文、英语对话、HTTP请求、韩语文字等不同内容表现出强烈的激活状态。

　　而这会阻碍我们了解神经网络每一小部分的具体功能和交互过程，从而无法对整个网络的行为进行推断。

　　早在去年，Anthropic就推测其中一个潜在的因素是“叠加”（superposition）。

　　同时，Anthropic也指出，字典学习——就是提取事物最本质的特征，最终让我们像查字典一样获取新知识，是解决这一问题的办法。

　　如果一个对模型有用的特征集在训练数据中是稀疏的，那么该神经网络在训练过程中可以自然地产生叠加。

　　基于该玩具模型，他们提出了三种策略来找到一组稀疏且可解释的特征：一是创建没有叠加的模型，然后通过鼓励激活稀疏性；

　　总的来说，该算法建立在大量先前的成果之上，尤其是在神经网络激活上使用字典学习的相关方法，以及解耦（disentanglement）相关的内容。

　　具体来说，Anthropic采用一个具有512个神经元的MLP单层transformer，通过在具有80亿个数据点的MLP激活上训练稀疏自动编码器，最终将MLP激活分解为相对可解释的特征，扩展因子范围可以从1x（512个特征）增长到256x（131072个特征）。

　　Anthropic团队将他们得到的可解释性分析全部集中在一个称为A/1的运行中，共包含4096个特征，每个特征都注明了含义，它们可以按照预期被人工激活。

　　现象分析，描述特征的几个属性，包括特征分割性、普遍性等，以及它们如何形成一个有趣的、类似“有限状态自动机”的系统。

　　例如，激活Base64特征会导致模型生成Base64文本，激活阿拉伯文字特征会生成阿拉伯文本。

　　4、稀疏自动编码器产生相对通用的特征。特征彼此之间的相似性比它们与自己模型神经元之间的相似度更高（对应“普遍性”一节）。

　　5、当我们增加自动编码器的大小时，特征似乎会“”。比如一个小型字典中的Base64特征在较大的字典中会分成三个，每个都具有更微妙但仍可解释的含义（对应“特征分割性”一节）。

　　7、特征可以在类似“有限状态自动机”的系统中实现连接，从而完成复杂的行为（比如生成HTML功能）。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

KP13G系列