021-3391 0332ENGLISH

杏彩体育平台app分解大模型的神经元Claude团队最新研究火了网友

  ChatGPT最强竞对Claude背后的公司Anthropic,利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。

  具体而言,神经元具有不可解释性,但经过这一分解,Anthropic发现每一个特征都代表了不同的含义,比如有的分管DNA序列,有的则表示HTTP请求、法律文本等等,也就是具备了可解释性。

  而一旦我们能够了解语言模型的工作原理,就能很容易地判断一个模型是否安全,从而决定它是否应该被社会和企业所采用。

  例如,一个小型语言模型中的某个神经元会同时对学术引文、英语对话、HTTP请求、韩语文字等不同内容表现出强烈的激活状态。

  而这会阻碍我们了解神经网络每一小部分的具体功能和交互过程,从而无法对整个网络的行为进行推断。

  早在去年,Anthropic就推测其中一个潜在的因素是“叠加”(superposition)。

  同时,Anthropic也指出,字典学习——就是提取事物最本质的特征,最终让我们像查字典一样获取新知识,是解决这一问题的办法。

  如果一个对模型有用的特征集在训练数据中是稀疏的,那么该神经网络在训练过程中可以自然地产生叠加。

  基于该玩具模型,他们提出了三种策略来找到一组稀疏且可解释的特征:一是创建没有叠加的模型,然后通过鼓励激活稀疏性;

  总的来说,该算法建立在大量先前的成果之上,尤其是在神经网络激活上使用字典学习的相关方法,以及解耦(disentanglement)相关的内容。

  具体来说,Anthropic采用一个具有512个神经元的MLP单层transformer,通过在具有80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围可以从1x(512个特征)增长到256x(131072个特征)。

  Anthropic团队将他们得到的可解释性分析全部集中在一个称为A/1的运行中,共包含4096个特征,每个特征都注明了含义,它们可以按照预期被人工激活。

  现象分析,描述特征的几个属性,包括特征分割性、普遍性等,以及它们如何形成一个有趣的、类似“有限状态自动机”的系统。

  例如,激活Base64特征会导致模型生成Base64文本,激活阿拉伯文字特征会生成阿拉伯文本。

  4、稀疏自动编码器产生相对通用的特征。特征彼此之间的相似性比它们与自己模型神经元之间的相似度更高(对应“普遍性”一节)。

  5、当我们增加自动编码器的大小时,特征似乎会“”。比如一个小型字典中的Base64特征在较大的字典中会分成三个,每个都具有更微妙但仍可解释的含义(对应“特征分割性”一节)。

  7、特征可以在类似“有限状态自动机”的系统中实现连接,从而完成复杂的行为(比如生成HTML功能)。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


杏彩体育平台app 上一篇:使命召唤手游Swordfish怎么样-Swordf 下一篇:性能篇 String慎重使用正则表达式!

相关推荐