金鼎娱乐中国最新官方网址多轮Agent蒸馏终于不翻车！港中语x通义新纪律到手率暴涨18点，历练还快32%

发布日期：2026-05-09 13:30 来源：未知作者：admin 浏览次数：

把坚韧模子的智商"蒸馏"给小模子，听起来很好意思——

但放到多轮对话 Agent 场景里，后果不时一塌朦拢。

为什么？

香港中语大学蚁合阿里通义奇迹群给出了谜底，并残酷了一种名为 TCOD（Temporal Curriculum On-Policy Distillation）的历练纪律。

上图（左）默示在多轮 Agent 的 OPD 历练中，跟着交互轮次的加多，进修模子对学生生成回话中各 token 的概率分派执续缩小，标明每轮的 KL 散度无间攀升，最终导致监督信号失效。（右）默示原始 OPD 使用好意思满轨迹进行历练，因此包含了所有这个词集中的缺欠；而 TCOD-F2B/B2F 则通过课程学习，从短轨迹渐渐膨胀至长轨迹，灵验侧目了缺欠轮次的插手。）

团队发现失效的根柢原因在于轨迹级 KL 不镇静性，每一轮缺欠无间集中，把学生模子推到诚实模子从未见过的气象区域，诚实的监督信号因此透澈失效。

而 TCOD 用课程学习的念念路，让学生模子从短轨迹脱手、循序渐进地学习好意思满轨迹，一举处分了多轮 Agent 蒸馏的镇静性难题。

TCOD 只需对现存 OPD 代码作念少许更动

On-Policy Distillation（OPD）如故在 SFT 和 RL 之后，成为了第三种灵验的 post-training 历练样式。

关连词 OPD 固然在数学推理等单轮任务上很好用，但放到 ALFWorld、WebShop 这类多轮交互任务里，平直翻车：

小模子：KL 散度飙升 + 到手率坍塌到接近 0

大一丝的模子：固然最终不断，但启动 KL 极高，历练极不镇静

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 败露，在通盘历练经过中 KL 散度执续攀升，同期任务完成率出现坍塌。 ( c ) 展示了 OPD 历练中启动 KL 与不断后 KL 之间的开阔差距。 ( d ) 揭示了背后的根柢原因：KL 散度随交互轮次的加多而增大，标明缺欠沿轨迹标的无间集中放大。 )

那 TCOD 是奈那边分的呢？

中枢念念路很肤浅：别一脱手就让学生孤立走好意思满条轨迹，用课程学习，从短到长逐渐来。

具体有两种变体：

F2B（前向到后向）：先让学生融会前几步，再渐渐接管后续设施

B2F（后向到前向）：先让诚实教悔到接近绝顶的气象，学生只融会终末几步，再逐渐上前延迟

两种样式只需对现存 OPD 代码作念少许更动。

KL 崩溃被透澈压制，小模子平直"满血回生"

团队在三个难度递加的多轮 Agent 基准上考证了 TCOD 的后果，包括 ALFWorld（具身导航）、WebShop（电商购物）以及 ScienceWorld（科学推理）。

在这些基准上，TCOD 到手率最高擢升了 18 个百分点，同期把平均行径步数也一并压了下来。

最值得轻柔的，金鼎娱乐(中国)棋牌是小模子的"死而复生"。

以Qwen3-1.7B为例，用 Vanilla OPD 历练后，模子在三个基准上的平均到手率仅有0.17%。

这险些是填塞崩溃、毫无可用性。

但换上 TCOD 之后，统一个 1.7B 小模子的平均到手爽平直拉升至18% 以上，擢升幅度越过 18 个百分点。

这意味着，TCOD 把一个"废了"的模子再行训活了。

关于更大的模子，TCOD 则是镌脾琢肾。

以Qwen2.5-3B学生模子为例，在 ALFWorld 的 Valid Unseen 测试集上，Vanilla OPD 到手率为60.45%，而 TCOD-F2B 的到手率为79.19%，擢升了 18.74 个点。

不仅如斯，TCOD 还把完成任务所需的平均行径步数压缩了 2.97 步，推理效力和任务性能同步擢升。

TCOD 与 OPD 在 ALFWorld 上的历练动态对比

上图 ( a ) ( b ) 分辨展示了以 Qwen2.5-7B 为学生模子，Qwen2.5-7B-RL 之后的手脚 teacher 模子时的到手率与 KL 散度变化弧线。TCOD 在通盘历练经过中永恒保执更高的到手率，同期 KL 散度也愈加安详可控。

TCOD 与 OPD 在 ALFWorld 上的历练动态对比

上图 ( a ) ( b ) 分辨展示了以 Qwen2.5-7B 为学生模子，Qwen2.5-7B-RL 之后的手脚 teacher 模子时的历练经过中的平均行径步数与上风函数的变化弧线。

商榷东谈主员还专诚构建了一个Hard 测试集——

121 个进修模子 pass@10 采样一谈失败的任务，进修本身到手率仅 6.61%。

完了，Qwen2.5-7B 学生模子在 TCOD-B2F 的历练下，Hard 集到手率达到 20.66%，比进修越过整整 14 个点。

让模子学会"从短到长、循序渐进"地走轨迹，不仅能学会诚实会的，还能泛化到诚实根柢不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及贫苦集性能对比

另外，商榷东谈主员还测试了历练效力。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总历练时分。

原因也很平直：课程学习早期只走短轨迹，rollout 更短、数据汇集更快，省下来的缱绻量颠倒可不雅。

团队还进一步考证了超参鲁棒性，发现课程膨胀速度 η 在 {2，4，6} 之间变动，到手率波动不越过 2%，险些不需要调参就能平直用。

TCOD 展现出的这种"循序渐进"步地，让 AI 更接近东谈主类学习的样式。

也等于先在肤浅场景里站稳脚跟，再渐渐挑战复杂任务，而不是一脱手就被扔进深水区。

改日，这类时序课程机制很可能成为历练长程 Agent 的标配组件。

论文：https://arxiv.org/pdf/2604.24005

GitHub：https://github.com/kokolerk/TCOD

ModelScope：https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face：https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「羁系心」

接待在指摘区留住你的方针！

— 完 —

咱们正在招聘又名眼疾手快、轻柔 AI 的学术裁剪实习生 � �

感艳羡的小伙伴接待轻柔 � � 了解确定

� � 点亮星标 � �

科技前沿进展逐日见金鼎娱乐中国最新官方网址

星空体育(中国)官方网站

上一篇：上一篇：金鼎娱乐(中国)棋牌三分钟就能看完 100 页书？！披上“新科学外套”的伪科学骗局卷土重来

下一篇：下一篇：金鼎娱乐(中国)棋牌马斯克22万张GPU全卖给Claude用：5小时名额翻倍，两边融合建天际算力

2026世界杯

金鼎娱乐中国最新官方网址 多轮Agent蒸馏终于不翻车！港中语x通义新纪律到手率暴涨18点，历练还快32%

金鼎娱乐中国最新官方网址多轮Agent蒸馏终于不翻车！港中语x通义新纪律到手率暴涨18点，历练还快32%