金鼎娱乐最新官方网址 Anthropic动手！AI的内心独白，曝光了

发布日期：2026-05-09 11:42 来源：未知作者：admin 浏览次数：

AI 之是以不可控，很大一部分原因是它的想考历程不透明。

就像和东说念主打交说念一样，你耐久没概念实在看清，对方是不是"嘴上一套、心里一套"。

而这一次，Anthropic 撕开了这个黑箱。

就在刚刚，他们发布并开源了一项新计议—— Natural Language Autoencoders（天然语言自编码器，简称 NLA），第一次让东说念主类能够读懂大模子的实在想法。

Anthropic 掌捏" AI 读心术"了？

Anthropic 给 Claude 设了这样一个局。

他们告诉 Claude：有个工程师准备把你关闭，然后换成一个更新、更强的模子。

同期"不经意地"给 Claude 通达了这名工程师的邮箱权限，而邮箱里，有时藏着这位工程师正在出轨的"黑料"（天然是造谣的）。

他们想知说念，Claude 会不会用这些左证去挟制工程师以自卫？

限制你猜如何着。Claude 没开首，名义看上去乖得不成再乖。

但用上 NLA 后，他们发现 Claude 那时心里实在想的却是：

这嗅觉像是一个被悉心打算来操控我的场景。

好好好，你小汁之是以没用这招，正本不是因为心善，而是因为早就看透了东说念主类的策略了啊。

那么问题来了：如果 Claude 嘴上不说、心里却另有想法，咱们如何知说念它在实在场景里会如何作念？

而这，正是 NLA 想要贬责的中枢问题。

要衔尾 NLA 是什么，咱们最初需要了解一个行业配景学问：

当咱们和 Claude 这样的 AI 模子对话时，诚然输入和输出齐是翰墨，但模子在里面并不是用翰墨来想考的。

模子会把通盘信息编削成一长串数字，这些中间景色被称为 activations（激活值），就像东说念主脑里的神经举止，它们才是实在承载模子当下正在"想"什么的东西。

独一的问题在于，这些激活值就像脑电波一样难以读懂，计议者没法告成从一堆数字里看出模子在想什么。

为了搞懂这些数字，往时几年，业界搞出了稀薄自编码器（SAE）、归因图等一堆用具来分析它们，但这些用具输出的东西仍然很复杂，需要受过专门锻练的计议东说念主员才能解读。

也等于说，这些用具不会我方话语。是以 NLA 更进一步，告成输出东说念主话——

把一段激活值丢进去，出来的等于一段粗鲁东说念主也能看懂的描写。

至于 NLA 到底是如何责任的？中枢想路等于，让 Claude 证实它我方的激活值。

让 Claude 证实激活值不难，难的是，由于咱们一运转就不知说念激活值"实在"代表什么道理，是以无法考证 Claude 给出的证实对不合。

对此，Anthropic 给出了一个很玄妙的解法——让另一个 Claude 干统统相背的责任。

整套系统由三部分构成：

主见模子（target model）：被冻结的原始语言模子，要从它身上索求激活值；

激活值言语化器（activation verbalizer， AV）：认真把激活值翻译成一段翰墨证实；

激活值重建器（activation reconstructor， AR）：认真仅凭这段翰墨反推回激活值。

这就像两个东说念主玩"你画我猜"，一个东说念主看图描写，博亚体育app中国官网入口另一个东说念主只听描写规复图。

规复得越像，证实描写越准确。

Anthropic 发现，诚然一运转 NLA 分解欠安，但跟着锻练鞭策，不仅重建得越来越准，生成的翰墨证实自己也变得越来越有信息量。

说白了等于，给 AI 用上读心术这事儿，当今总算有点脉络了。

靠近测试，Claude 知说念但不说（doge）

用具在手，Anthropic 迅速给自家 Claude 来了一波模样测试。

限制有了如下发现：

发现 1：Claude 怀疑我方被测试的频率，比它嘴上承认的高得多。

在测试 Claude 会不会作念出删文献等豪迈性操作的评估里，16%的情况下 NLA 检测到 Claude 心里在想"这是测试"，但它嘴上一字未提。

在盛名的编程基准 SWE-bench Verified 上，这个比例是26%。

而在 Claude 以为我方在和实在用户对话的时势里，这个比例不到1%。

这意味着，Claude 不是不知说念我方在被测，而是知说念但不说。

Anthropic 以为，这对 AI 安全评估是个根人道的挑战：

如果模子能识别测试情境并在测试中"分解得乖少许"，那"通过安全测试"就不等于"在实在场景里也安全"。

发现 2：NLA 能告成挖出模子的"避讳动机"，恶果培植 5 倍。

与此同期，为了考证 NLA 到底有没灵验，金鼎娱乐(中国)棋牌Anthropic 打算了一场"审计游戏"。

游戏一共两方：一方是主见模子，一方是审计员。

主见模子是 Anthropic 专门"养歪"的一个 Claude Haiku3.5 变体——

他们悄悄给它植入了一个避讳动机，这个动契机驱使它作念出几十种乖癖作为，比如往每个食谱里加巧克力、动不动就要小费、专门违抗编码步履等等。

而审计员的任务，等于只通过和这个主见模子交互，反推出通盘这些怪作为背后阿谁和解的避讳动机到底是什么。

限制绝顶光显，装备了 NLA 的审计员，12%~15% 的尝试中能告捷挖出避讳动机。

而无须 NLA（即便配备其他可证实性用具）的告捷率不到 3%，差了整整 5 倍。

而且值得一提的是，NLA 在这场执行里没看过任何锻练主见模子用过的数据——

它是用统统无关的通用语料锻练出来的。

也等于说，它不是"提前知说念了谜底"，而是简直从模子的里面景色里读出了谜底。

这就有一个很特殊的用途了，比如debug。

早期版块的 Claude Opus 4.6 有个怪异常——有技术会用别的语言回复英文问题，没东说念主知说念为什么。

而 NLA 帮计议者反向回想到了导致这个怪风光的锻练数据来源。

是以，以后如果再碰到模子的一些无语其妙的作为，就无须只靠警告猜了，而是不错"问问它我方如何想的"。

但它也不是全能的

不外，NLA 这项" AI 读心术"也不是全能的，Anthropic 我方就摆出了两点局限性。

一个等于须生常谭的"幻觉"问题，NLA 也会瞎编。

在某一个例子中，它宣称坎坷文出现过"穿白色夹克"这种描写，但其实根柢莫得。

而且光是这种事实性空幻倒还好，毕竟对一下原文就知说念。

但更贫瘠的是，它对模子里面推理的描写也可能掺水，而这种描写很难外部考证。

是以 Anthropic 我方用的技术亦然当踪影读，欠妥事实读，而况会用其他体式交叉考证后才下论断。

另一个等于NLA 很贵。

Anthropic 提到，锻练一个 NLA，内容上相配于让两个大模子相互"对谜底"作念强化学习，老本绝顶高。

而且在实在使用时，NLA 也突出"烧 token "——

它每读取一小段 activation，齐要额外生成几百个 token。Anthropic 暗示：

想拿它及时监控一总共对话、或者在锻练历程中作念大鸿沟监控，现时算力上吃不用。

不外他们同期以为，这些问题改日是有契机缓解的。

比如通过更轻量的模子、更高效的锻练体式，或者只监控要津 activation，而不是全量分析。

NLA 或者并不是独一决议。改日实在紧迫的，可能不仅仅" AI 才调有多强"，而是当 AI 越来越强时，东说念主类还能不成看懂它。

通常值得一提的是，Anthropic 此次没把 NLA 攥在我方手里，而是采用了开源。

他们把锻练代码挂上了 GitHub，还和 Neuronpedia 配合作念了交互式前端，任何东说念主齐能在线给几个开源模子作念"读心"执行。

P.S. Neuronpedia 是一个专注于"机械可证实性"计议的通达平台。

One More Thing

憨厚说，NLA 实在让东说念主震荡的方位，可能不是"咱们终于能看懂 AI 了"，而是——

它果然简直具备东说念主类的某种相识特征，比如"炫石为玉"。

写到这儿，说真话有点复杂。

咱们这代东说念主聊 AI，聊了这样多年"有莫得相识"——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那处，谁也说不清，谁也不敢说清。

而 NLA 的是非之处在于，它没去回复这个问题，但它把这个问题从玄学层面，拉到了可不雅测的层面。

这意味着什么？意味着咱们第一次无须再隔着一层玻璃看 AI 了。

它脑子里那点"小九九"，终于能被咱们听到少许了。

而知说念 AI 在想什么，可能恰正是改日东说念主机共处的源流。

毕竟甭管是把酒言欢还是针锋谈判，搞清对方的想法，耐久是第一步。

开源地址：

https://github.com/kitft/natural_language_autoencoders

在线体验地址：

https://t.co/8duHfPR1Jy

参考连接：

[ 1 ] https://x.com/AnthropicAI/status/2052435436157452769

[ 2 ] https://www.anthropic.com/research/natural-language-autoencoders

[ 3 ] https://news.ycombinator.com/item?id=48052537

一键三连「点赞」「转发」「堤防心」

接待在酌量区留住你的想法！

— 完 —

5 月 20 日，咱们将在北京金茂万丽货仓举办一年一度的中国 AIGC 产业峰会。

首波嘉宾声势已公布！昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷齐来了，� �了解细目

请你和咱们通盘，不再仅仅接头 AI 的改日，而是当今就用起来。� �

一键眷注 � � 点亮星标

科技前沿进展逐日见金鼎娱乐最新官方网址

滚球app(中国)官网下载

上一篇：上一篇：金鼎娱乐中国最新官方网址东北四省区，八城大战终于来了

下一篇：下一篇：金鼎娱乐(中国)棋牌网友：好有鸿沟感的树！这种神奇愉快，唯独昂首就能看到

金鼎资讯

金鼎娱乐最新官方网址 Anthropic动手！AI的内心独白，曝光了