无需人类标注!在环境交互中实现LLM的自我进化

大语言模型（Large Language Model, LLM）在以自然语言为核心的任务上取得了卓越的性能。LLM的成功依赖于大量可获得的人类标注数据作训练，这些数据主要由自然语言（Natural Language，NL）构成。受益于LLM出色的基础能力与NL数据收集的便捷性，LLM在NL-centric场景中的自我训练、自我增强是相对容易的。
为了拓展LLM的能力边界及应用范围，很多研究者将目光聚焦于神经-符号（Neural-Symbolic）场景。例如，对于web agent网页浏览场景，给定NL的任务描述x，agent需要生成对应的符号化动作a，并在浏览器环境中执行a来获取下一步的状态或结果y。相比于丰富的NL标注数据（x,y），收集符号化的数据对（x,a,y）是非常昂贵的且困难的。同时，符号数据稀缺和内生复杂性，也导致LLM在处理神经-符号场景下的任务时具有较大的局限性。
因此，本研究的核心是：如何在无人类标注、不引入Strong LLM的情况下，在与环境的交互过程中，实现LLM的自训练？

论文题目：
Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models
论文地址：
https://arxiv.org/abs/2406.11736
项目地址：
https://github.com/xufangzhi/ENVISIONS

一、当前范式的局限性

借鉴LLM在NL-centric任务上的自训练方式，可以总结出两种常见的Self-Training范式，如下图(a)、(b)所示。第一种是Distill-then-Finetune。第二种是Reinforced Self-Training。

前者主要通过Prompt Teacher LLM（如GPT-4）获取训练数据，用于student LLM的训练。该方法的优势是简单且有效，在诸多数据稀缺的场景下作用很大。劣势是严重依赖于Teacher LLM，导致成本高。

后者利用LLM和RL的训练结合，来提升性能。在偏好优化、指令跟随与安全对齐等场景下，该范式能带来很大的性能增益。但是，它的主要缺陷是整体训练非常低效，奖励模型的训练同样需要依赖大量的人类标注。当前很多研究者提出了无需奖励模型、参考模型的RL训练方式，如DPO等，但是这类方法在探索类场景下具有较大的局限性（参考本论文实验分析部分）。

考虑到上述范式的局限性，本论文提出了一种针对神经符号场景的范式，名为“Env-guided Self-Training”（见图c）。该范式仅依托于LLM本身与环境之间的交互，实现了LLM从弱到强的转化。它具有以下优势：1）无需人工标注和教师LLM的帮助，能够解决符号数据稀缺的难题。2）通过自我生成数据，实现了LLM在神经符号场景中基础能力的自我进化，弥补了其短板。

值得一提的是，上述三种范式均具备可组合性。为了突出比较其优劣，该研究中对三种范式独立讨论。

二、自训练框架：ENVISIONS

基于Env-guided Self-Training范式，该研究提出了一个全新的自训练框架ENVISIONS：ENV-guIded Self-traIning framework fOr Neural Symbolic scenarios，如下图所示。

2.1 基本设定

ENVISIONS采用迭代训练的方式。对于每一个迭代步骤，可以得到数据对, 其中是NL形式的任务指令，是对应的答案或者NL描述的一种结果状态。

基本设定：基于NL的输入，LLM 需要生成符号化的输出，通过在环境中执行，得到确定性结果。

2.2 在线探索阶段

在线探索（Online exploration）包含步骤1-7，LLM不断地自主生成候选轨迹并与环境交互，构造高质量的正负训练样本。其中，步骤1-3为Self-Exploration阶段，步骤4-6为Self-Refinement阶段, 步骤7为Self-Rewarding阶段。

2.2.1 Self-Exploration

步骤 1：根据输入，生成个候选symbolic solutions 。即，

步骤 2：在环境ENV中执行每一个，得到反馈结果，即。

步骤 3：根据环境的反馈与作比较，得到二值化的奖励，即

2.2.2 Self-Refinement

由于NL-centric的LLM在符号语言生成上的天然劣势，根据直接生成是有挑战性的。考虑将作为参考输入，进一步生成。该步骤可以看作Self-Refinement的过程。

在步骤4到步骤6中，我们进行与Self-Exploration阶段类似的操作。根据输入和，合成，并通过与环境的交互，得到二值化的奖励。

2.2.3 Self-Rewarding

根据步骤1-6，只能获得二值化的反馈。但无法区分更好的正样本或负样本。因此，使用生成输出过程中的length-normalized logits，来作为soft self-rewards，衡量样本之间的相对好坏。

2.3 训练策略

在在线探索阶段，收集到的轨迹可以表示为和。对轨迹进行过滤筛选，得到更优的轨迹。使用去更新candidate trajectory pool。

在训练阶段，一种最直接bootstrap LLM的方式，就是利用正样本进行微调。为了得到更优的正样本进行进练，根据当前trajectory pool中每一个正样本的self-rewards值，进行重新降序排序，得到ranked positive set .

对于第个输入，取前个正样本进行训练，形成集合。

通过一个基础的SFT损失，根据NL输入生成对应的符号化动作。

除了正样本之外，candidate trajectory pool中的负样本也具有很大的利用价值。例如，例如，LLM可以在从弱到强的强化过程中获取从错误中学习的能力。与正样本池相似，我们也可以得到ranked negative set 。排在前面的负样本轨迹对应的自我奖励值越高，表明它们是更具挑战性的负样本。

从和中，我们使用self-rewards更低的正样本，与self-rewards更高的负样本，去构造N2个正负样本对。形成包含的集合。考虑到RL方法在探索场景中的低效性，我们构造RL-free的self-refine loss ，根据和去预测。

最终的训练损失就是 + ，是一个纯SFT的loss。

三、主要实验

3.1 实验设定

在主实验中，该研究选择了LLaMA2-Chat（7B/13B）作为基座大模型，并对自训练框架在三个不同领域任务上进行了验证，分别是Web Agent、Math Reasoning和Logic Reasoning。具体的实验细节如下表所示。

对比的基线方法可以按照self-training的范式分为对应的三类。Distill-then-Finetune中，分别采用GPT-4和Claude-2作为Teacher LLM。Reinforced Self-Training中，我们引入Self-Rewarding、iterative SFT+DPO作为强基线。Env-guided Self-Training中，将STaR拓展到环境交互的场景，作为对比基线。

3.2 主要实验结果

根据主表结果，我们可以得出结论：ENVISIONS自训练框架在所有测试任务中都表现出优于对比基线方法的性能。此外，Env-guided Self-Training范式在神经-符号场景下展现出了令人瞩目的可拓展性。

3.3 自训练进化曲线

下图中呈现了LLaMA2-Chat（7B）的进化过程，（a）图中为性能变化过程，（b）图中为探索到的成功样本的数量变化过程。

小结：（1）ENVISIONS探索效率很高，且随着迭代轮次的增加，保持了稳定性。（2）RL的基线方法在神经符号探索场景中表现的很挣扎。

3.4 基座泛化能力

为了证明ENVISIONS在不同基座LLM上的泛化能力，下图展示了多个基座LLM在数学推理任务上的实验结果。

小结：ENVISIONS不仅能训练LLM完成weak-to-strong的转变，也能convert LLMs from strong to stronger。

四、分析实验

4.1 消融实验

该研究进行了扎实的消融实验，验证了各个关键模块的有效性。如下图所示。

4.2 对ENVISIONS优越性的深层分析

除此以外，该研究的一大贡献就是广泛、深入的分析实验，探索ENVISIONS取得优异性能的深层原因。

主要结论有三点：（1）平衡的探索效率和探索稳定性是weak-to-strong成功的关键。（2）清晰地区分正、负样本可以帮助LLM的优化。（3）生成轨迹的多样性对于self-training过程非常重要。

除了上述分析实验外，原文中还提供了诸多对比、分析实验，回答了很多“why” questions，为后续研究提供了insights。

llustration From IconScout By Delesign Graphic

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: