无需人类标注!在环境交互中实现LLM的自我进化

大语言模型(Large Language Model, LLM)在以自然语言为核心的任务上取得了卓越的性能。LLM的成功依赖于大量可获得的人类标注数据作训练,这些数据主要由自然语言(Natural Language,NL)构成。受益于LLM出色的基础能力与NL数据收集的便捷性,LLM在NL-centric场景中的自我训练、自我增强是相对容易的。
为了拓展LLM的能力边界及应用范围,很多研究者将目光聚焦于神经-符号(Neural-Symbolic)场景。例如,对于web agent网页浏览场景,给定NL的任务描述x,agent需要生成对应的符号化动作a,并在浏览器环境中执行a来获取下一步的状态或结果y。相比于丰富的NL标注数据(x,y),收集符号化的数据对(x,a,y)是非常昂贵的且困难的。同时,符号数据稀缺和内生复杂性,也导致LLM在处理神经-符号场景下的任务时具有较大的局限性。
因此,本研究的核心是:如何在无人类标注、不引入Strong LLM的情况下,在与环境的交互过程中,实现LLM的自训练?

论文题目:

Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

论文地址:

https://arxiv.org/abs/2406.11736

项目地址:

https://github.com/xufangzhi/ENVISIONS

一、当前范式的局限性

借鉴LLM在NL-centric任务上的自训练方式,可以总结出两种常见的Self-Training范式,如下图(a)、(b)所示。第一种是Distill-then-Finetune。第二种是Reinforced Self-Training

前者主要通过Prompt Teacher LLM(如GPT-4)获取训练数据,用于student LLM的训练。该方法的优势是简单且有效,在诸多数据稀缺的场景下作用很大。劣势是严重依赖于Teacher LLM,导致成本高。

后者利用LLM和RL的训练结合,来提升性能。在偏好优化、指令跟随与安全对齐等场景下,该范式能带来很大的性能增益。但是,它的主要缺陷是整体训练非常低效,奖励模型的训练同样需要依赖大量的人类标注。当前很多研究者提出了无需奖励模型、参考模型的RL训练方式,如DPO等,但是这类方法在探索类场景下具有较大的局限性(参考本论文实验分析部分)。

考虑到上述范式的局限性,本论文提出了一种针对神经符号场景的范式,名为“Env-guided Self-Training”(见图c)。该范式仅依托于LLM本身与环境之间的交互,实现了LLM从弱到强的转化。它具有以下优势:1)无需人工标注和教师LLM的帮助,能够解决符号数据稀缺的难题。2)通过自我生成数据,实现了LLM在神经符号场景中基础能力的自我进化,弥补了其短板。

值得一提的是,上述三种范式均具备可组合性。为了突出比较其优劣,该研究中对三种范式独立讨论。

二、自训练框架:ENVISIONS

基于Env-guided Self-Training范式,该研究提出了一个全新的自训练框架ENVISIONSENV-guIded Self-traIning framework fOr Neural Symbolic scenarios,如下图所示。

2.1 基本设定

ENVISIONS采用迭代训练的方式。对于每一个迭代步骤,可以得到 数据对, 其中 是NL形式的任务指令, 是对应的答案或者NL描述的一种结果状态。
基本设定:基于NL的输入 ,LLM 需要生成符号化的输出 ,通过在环境 中执行 ,得到确定性结果

2.2 在线探索阶段

在线探索(Online exploration)包含步骤1-7,LLM不断地自主生成候选轨迹并与环境交互,构造高质量的正负训练样本。其中,步骤1-3为Self-Exploration阶段,步骤4-6为Self-Refinement阶段, 步骤7为Self-Rewarding阶段。

2.2.1 Self-Exploration

步骤 1:根据输入 ,生成 个候选symbolic solutions 。即,
步骤 2:在环境ENV中执行每一个 ,得到反馈结果,即
步骤 3:根据环境的反馈与 作比较,得到二值化的奖励 ,即

2.2.2 Self-Refinement

由于NL-centric的LLM在符号语言生成上的天然劣势,根据 直接生成 是有挑战性的。考虑将 作为参考输入,进一步生成 。该步骤可以看作Self-Refinement的过程。
在步骤4到步骤6中,我们进行与Self-Exploration阶段类似的操作。根据输入 ,合成 ,并通过与环境的交互,得到二值化的奖励

2.2.3 Self-Rewarding

根据步骤1-6,只能获得二值化的反馈。但无法区分更好的正样本或负样本。因此,使用生成输出过程中的length-normalized logits,来作为soft self-rewards,衡量样本之间的相对好坏。

2.3 训练策略

在在线探索阶段,收集到的轨迹可以表示为 。对轨迹进行过滤筛选,得到更优的轨迹 。使用 去更新candidate trajectory pool。

在训练阶段,一种最直接bootstrap LLM的方式,就是利用正样本进行微调。为了得到更优的正样本进行进练,根据当前trajectory pool中每一个正样本的self-rewards值,进行重新降序排序,得到ranked positive set .
对于第 个输入 ,取前 个正样本进行训练,形成集合

通过一个基础的SFT损失 ,根据NL输入 生成对应的符号化动作

除了正样本之外,candidate trajectory pool中的负样本也具有很大的利用价值。例如,例如,LLM可以在从弱到强的强化过程中获取从错误中学习的能力。与正样本池相似,我们也可以得到ranked negative set 。排在前面的负样本轨迹对应的自我奖励值越高,表明它们是更具挑战性的负样本。

中,我们使用self-rewards更低的正样本,与self-rewards更高的负样本,去构造N2个正负样本对。形成包含 的集合 。考虑到RL方法在探索场景中的低效性,我们构造RL-free的self-refine loss ,根据 去预测
最终的训练损失就是 + ,是一个纯SFT的loss。

三、主要实验

3.1 实验设定

在主实验中,该研究选择了LLaMA2-Chat(7B/13B)作为基座大模型,并对自训练框架在三个不同领域任务上进行了验证,分别是Web Agent、Math Reasoning和Logic Reasoning。具体的实验细节如下表所示。

对比的基线方法可以按照self-training的范式分为对应的三类。Distill-then-Finetune中,分别采用GPT-4和Claude-2作为Teacher LLM。Reinforced Self-Training中,我们引入Self-Rewarding、iterative SFT+DPO作为强基线。Env-guided Self-Training中,将STaR拓展到环境交互的场景,作为对比基线。

3.2 主要实验结果

根据主表结果,我们可以得出结论:ENVISIONS自训练框架在所有测试任务中都表现出优于对比基线方法的性能。此外,Env-guided Self-Training范式在神经-符号场景下展现出了令人瞩目的可拓展性。

3.3 自训练进化曲线

下图中呈现了LLaMA2-Chat(7B)的进化过程,(a)图中为性能变化过程,(b)图中为探索到的成功样本的数量变化过程。

小结:(1)ENVISIONS探索效率很高,且随着迭代轮次的增加,保持了稳定性。(2)RL的基线方法在神经符号探索场景中表现的很挣扎。

3.4 基座泛化能力

为了证明ENVISIONS在不同基座LLM上的泛化能力,下图展示了多个基座LLM在数学推理任务上的实验结果。

小结:ENVISIONS不仅能训练LLM完成weak-to-strong的转变,也能convert LLMs from strong to stronger。

四、分析实验

4.1 消融实验

该研究进行了扎实的消融实验,验证了各个关键模块的有效性。如下图所示。

4.2 对ENVISIONS优越性的深层分析

除此以外,该研究的一大贡献就是广泛、深入的分析实验,探索ENVISIONS取得优异性能的深层原因。

主要结论有三点:(1)平衡的探索效率和探索稳定性是weak-to-strong成功的关键。(2)清晰地区分正、负样本可以帮助LLM的优化。(3)生成轨迹的多样性对于self-training过程非常重要。

除了上述分析实验外,原文中还提供了诸多对比、分析实验,回答了很多“why” questions,为后续研究提供了insights。

llustration From IconScout By Delesign Graphic


-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: