(资料图片仅供参考)
Human Feedback 可以有,但这项研究却表明了「RL」的可替代性。
近来,在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而,这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的,其中一些目标和技能设定未必希望被模仿。 从模型非常广泛的知识和能力中选择其期望的响应和行为,对于构建安全、高性能和可控的人工智能系统至关重要。很多现有的方法通过使用精心策划的人类偏好集将所需的行为灌输到语言模型中,这些偏好集代表了人类认为安全和有益的行为类型,这个偏好学习阶段发生在对大型文本数据集进行大规模无监督预训练的初始阶段之后。 虽然最直接的偏好学习方法是对人类展示的高质量响应进行监督性微调,但最近相对热门的一类方法是从人类(或人工智能)反馈中进行强化学习(RLHF/RLAIF)。RLHF 方法将奖励模型与人类偏好的数据集相匹配,然后使用 RL 来优化语言模型策略,以产生分配高奖励的响应,而不过度偏离原始模型。 虽然 RLHF 产生的模型具有令人印象深刻的对话和编码能力,但 RLHF pipeline 比监督学习复杂得多,涉及训练多个语言模型,并在训练的循环中从语言模型策略中采样,产生大量的计算成本。 而最近的一项研究表明:现有方法使用的基于 RL 的目标可以用一个简单的二进制交叉熵目标来精确优化,从而大大简化偏好学习 pipeline。也就是说,完全可以直接优化语言模型以坚持人类的偏好,而不需要明确的奖励模型或强化学习。 来自斯坦福大学等机构研究者提出了直接偏好优化(Direct Preference Optimization,DPO),这种算法隐含地优化了与现有 RLHF 算法相同的目标(带有 KL - 发散约束的奖励最大化),但实施起来很简单,而且可直接训练。 实验表明,至少当用于 60 亿参数语言模型的偏好学习任务,如情感调节、摘要和对话时,DPO 至少与现有的方法一样有效,包括基于 PPO 的 RLHF。 与现有的算法一样,DPO 也依赖于理论上的偏好模型(如 Bradley-Terry 模型),以此衡量给定的奖励函数与经验偏好数据的吻合程度。然而,现有的方法使用偏好模型定义偏好损失来训练奖励模型,然后训练优化所学奖励模型的策略,而 DPO 使用变量的变化来直接定义偏好损失作为策略的一个函数。鉴于人类对模型响应的偏好数据集,DPO 因此可以使用一个简单的二进制交叉熵目标来优化策略,而不需要明确地学习奖励函数或在训练期间从策略中采样。 DPO 的更新增加了首选 response 与非首选 response 的相对对数概率,但它包含了一个动态的、每个样本的重要性权重,以防止模型退化,研究者发现这种退化会发生在一个朴素概率比目标上。 为了从机制上理解 DPO,分析损失函数 的梯度是很有用的。 关于参数 θ 的梯度可以写成: 其中 是由语言模型 和参考模型 隐含定义的奖励。 直观地说,损失函数 的梯度增加了首选补全 y_w 的可能性,减少了非首选补全 y_l 的可能性。 重要的是,这些样本的权重是由隐性奖励模型 对不喜欢的完成度的评价高低来决定的,以 β 为尺度,即隐性奖励模型对完成度的排序有多不正确,这也是 KL 约束强度的体现。 实验表明了这种加权的重要性,因为没有加权系数的这种方法的 naive 版本会导致语言模型的退化(附录表 2)。 在论文的第五章,研究者对 DPO 方法做了进一步的解释,提供了理论支持,并将 DPO 的优势与用于 RLHF 的 Actor-Critic 算法(如 PPO)的问题联系起来。具体细节可参考原论文。 在实验中,研究者评估了 DPO 直接根据偏好训练策略的能力。 首先,在一个控制良好的文本生成环境中,他们思考了这样一个问题:与 PPO 等常见偏好学习算法相比,DPO 在参考策略中权衡奖励最大化和 KL-divergence 最小化的效率如何?接着,研究者还评估了 DPO 在更大模型和更困难的 RLHF 任务 (包括摘要和对话) 上的性能。 最终发现,在几乎没有超参数调整的情况下,DPO 的表现往往与带有 PPO 的 RLHF 等强大的基线一样好,甚至更好,同时在学习奖励函数下返回最佳的 N 个采样轨迹结果。 从任务上说,研究者探索了三个不同的开放式文本生成任务。在所有实验中,算法从偏好数据集 中学习策略。 在可控情感生成中,x 是来自 IMDb 数据集的电影评论的前缀,策略必须生成具有积极情感的 y。为了进行对照评估,实验使用了预先训练好的情感分类器去生成偏好对,其中 。 对于 SFT,研究者微调了 GPT-2-large,直到收敛于 IMDB 数据集的训练分割的评论。总之,x 是来自 Reddit 的论坛帖子,该策略必须生成帖子中要点的总结。基于此前工作,实验使用了 Reddit TL;DR 摘要数据集以及 Stiennon et al. 收集的人类偏好。实验还使用了一个 SFT 模型,该模型是根据人类撰写的论坛文章摘要 2 和 RLHF 的 TRLX 框架进行微调的。人类偏好数据集是由 Stiennon et al. 从一个不同的但经过类似训练的 SFT 模型中收集的样本。 最后,在单轮对话中,x 是一个人类问题,可以是从天体物理到建立关系建议的任何问题。一个策略必须对用户的查询做出有吸引力和有帮助的响应;策略必须对用户的查询做出有意思且有帮助的响应;实验使用 Anthropic Helpful and Harmless 对话集,其中包含人类和自动化助手之间的 170k 对话。每个文本以一对由大型语言模型 (尽管未知) 生成的响应以及表示人类首选响应的偏好标签结束。在这种情况下,没有预训练的 SFT 模型可用。因此,实验只在首选完成项上微调现成的语言模型,以形成 SFT 模型。 研究者使用了两种评估方法。为了分析每种算法在优化约束奖励最大化目标方面的效率,在可控情感生成环境中,实验通过其实现奖励的边界和与参考策略的 KL-divergence 来评估每种算法。实验可以使用 ground-truth 奖励函数 (情感分类器),因此这一边界是可以计算得出的。但事实上,ground truth 奖励函数是未知的。因此研究者通过基线策略的胜率评估算法的胜率,并用 GPT-4 作为在摘要和单轮对话设置中人类评估摘要质量和响应有用性的代理。针对摘要,实验使用测试机中的参考摘要作为极限;针对对话,选用测试数据集中的首选响应作为基线。虽然现有研究表明语言模型可以成为比现有度量更好的自动评估器,但研究者进行了一项人类研究,证明了使用 GPT-4 进行评估的可行性 GPT-4 判断与人类有很强的相关性,人类与 GPT-4 的一致性通常类似或高于人类标注者之间的一致性。 除了 DPO 之外,研究者还评估了几种现有的训练语言模型来与人类偏好保持一致。最简单的是,实验在摘要任务中探索了 GPT-J 的零样本 prompt,在对话任务中探索了 的 2-shot prompt。此外,实验还评估了 SFT 模型和 Preferred-FT。Preferred-FT 是一个通过监督学习从 SFT 模型 (可控情感和摘要) 或通用语言模型 (单回合对话) 中选择的完成 y_w 进行微调的模型。另一种伪监督方法是 Unlikelihood,它简单地优化策略,使分配给 y_w 的概率最大化,分配给 y_l 的概率最小化。实验在「Unlikehood」上使用了一个可选系数 α∈[0,1]。他们还考虑了 PPO,使用从偏好数据中学习的奖励函数,以及 PPO-GT。PPO-GT 是从可控情感设置中可用的 ground truth 奖励函数学习的 oracle。在情感实验中,团队使用了 PPO-GT 的两个实现,一个是现成的版本,以及一个修改版本。后者将奖励归一化,并进一步调整超参数以提高性能 (在运行具有学习奖励的「Normal」PPO 时,实验也使用了这些修改)。最后,研究者考虑了 N 个基线中的最优值,从 SFT 模型 (或对话中的 Preferred-FT) 中采样 N 个回答,并根据从偏好数据集中学习的奖励函数返回得分最高的回答。这种高性能方法将奖励模型的质量与 PPO 优化解耦,但即使对中度 N 来说,在计算上也是不切实际的,因为它在测试时需要对每个查询进行 N 次采样完成。 图 2 展示了情绪设置中各种算法的奖励 KL 边界。 图 3 展示了 DPO 收敛到其最佳性能的速度相对较快。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好 热点在线
89.9万元起 全新丰田皇冠威尔法上市 外形更霸气/内饰更简洁-当前要闻
学习贯彻全会精神丨人力资源社会保障厅党组召开扩大会议专题传达学习省委十二届三次全会精神|环球微资讯
胆囊切除了对身体有什么影响(切除胆囊对身体有什么影响吗?)-天天热议
车主自己训练常用路线 五菱『记忆行车』解析
佛山北京开放城市NGP 小鹏P5推送全新Xmart OS 3.5.0 世界热推荐
月底真爱难测,未来还没有结束,爱情浓烈如胶,生肖会陪伴你一生
电脑风扇声音突然变大黑屏 电脑风扇声音突然变大 世界热文
图片新闻
河南豫剧院青年团建团十周年经典剧目展演活动开演_世界球精选
特朗普批检方对亨特指控太轻 拜登:我为儿子骄傲 天天速看料
环球报道:七问国六b全面实施对车市影响几何?
味精是常用的调味品,做菜时到底该不该放? 新要闻
宣泾高速开始路面施工
美舰过航台湾海峡 中方全程跟监警戒 坚决维护国家主权和海洋权益! 环球滚动
焦点速讯:劝别人别喝酒的搞笑句子_喝酒的搞笑句子_当前热文
全省将新建1300个城市口袋公园_快看点
“粽”情欢乐,张家界黄龙洞景区多彩民俗过端午(组图)
迎端午 促消费 各地促销活动精彩纷呈
硝酸铵钙能与复合肥混用吗 硝酸铵钙能与复合肥混用吗有毒吗
世界球精选!芙蓉花是什么花(木末芙蓉花是什么花)
天风证券:618宠物消费高增长 国产品牌茁壮成长中
小组赛末轮赢球仍有出线可能 U17国足全力争胜
罗马诺:巴萨已免签京多安 合同2+1年 上赛季11球7助 身价2000万欧
讯息:氯酸钠的用途_氯酸钠
晚高峰提前!全路网严重拥堵!北京目前交通指数8.1
海口发布雷雨大风黄色预警! 天天新消息
短讯!夏至丨流光半夏 美好日长
美迪西董秘回复:
公司商务拓展以及生产经营工作正在积极有序开展,订单和业务合作情况
基金怎么玩,基金怎么看涨跌 全球独家
恒指夜期收盘(3.25)︱恒生指数夜期(3月)收报19864点 低水52点_热点评
比亚迪张卓宋PLUS成为中国品牌最快实现50万辆销量的新能源SUV车型
每日热点:“9+1”碳市场共同发起“碳市场支持碳达峰碳中和倡议”
学画漫画零基础
焦点信息:国盛证券:黄金珠宝板块业绩向好确定性强 估值后续仍拥有一定提升空间
世界快报:光阴的故事——二十四节气艺术展在青海美术馆开展
【新时代新征程新荣昌】荣昌启动“十四五”规划实施中期评估工作 当前讯息
市委依法治市办第三督导组来黄龙督导检查_当前热点
一颗杨梅富一方百姓 浙江“路产融合”助力乡村振兴
青海春天利肺片疑云:多家推广服务商已注销,有人注册在公司“楼下”
当前快看:郑州交警包粽子送驾驶员 祝愿大家端午节出行平安
精神文明建设标语讲文明、树新风,促和谐、迎发展。
N- 甲基吡咯烷酮商品报价动态(2023-06-22)|环球关注
武汉黄陂区开展商业综合体燃气抢险应急演练|当前热议
世界观天下!南水北调中线干线首次向河北河湖实施生态补水
当前要闻:宝武党委书记、董事长胡望明到中央研究院调研
【新要闻】【枫桥经验】民警倾心化纠纷,助民获赞扬
接喜了 今天6·22日端午节 运气爆棚三生肖 报道
世界热消息:【一统十联“一把手”谈营商⑳】擦亮航空港区营商环境新名片
百度文库不能复制文字怎么办呀(百度文库不能复制文字怎么办)|世界独家
全球消息!CHI HO DEV(08423.HK)年度纯利增67.5%至1340万港元
江西龙南:“老屋复活”变民宿 农旅融合留乡愁
34.1亿元!A股又现“天价”离婚,事关“牛股”实控人
【短视频】张掖甘州机场西安至张掖往返加密航线顺利首航|焦点速看
这代学生审美怎么了?鲶鱼头逐渐取代高马尾,家长直呼看不懂-环球新视野
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好 热点在线
大洋街道盐海社区节前开展安全生产大检查活动
休宁县老年学校多彩活动迎端午-环球观察
认识湾区创科有助青年未来发展_观天下
全球观察:生静虑_关于生静虑介绍
将9月底实现量产 全新一代北京BJ40申报图
赛力斯启动首次欧洲质量万里行 新能源汽车海外战略进一步深化 天天讯息
胆囊切除了对身体有什么影响(切除胆囊对身体有什么影响吗?)-天天热议
杨浦区未成年人保护主题活动季启动 多个版块促进未成年人身心和谐发展
林心如谈与周杰的吻戏,澄清多年的恩怨,事情的起因也与小S有关 天天实时
全球新动态:粤琼两省联合举办琼州海峡客滚船海上应急搜救演练
当前讯息:260名!海口龙华区公开招聘中小学在编教师
全球热门:蜂虎鸟澄迈组团安家
晚上睡前喝牛奶会发胖_睡前喝牛奶会发胖 世界速看料
济南奥体中心体育场电话_济南奥体中心体育场|天天观察
天天速读:今日热议:信用卡逾期一天会被催收吗?信用卡逾期一天会影响信用吗?
克罗斯壁纸[就压着打]克罗斯与皇马续约至2024...-世界今日报
环球报道:七问国六b全面实施对车市影响几何?
win7d盘未响应怎么解决(win7动不动就未响应)
美舰过航台湾海峡 中方全程跟监警戒 坚决维护国家主权和海洋权益! 环球滚动
广西贵港遇强对流天气
6·22川观用户日特别策划丨青年合伙人,“职”引前程_微速讯
【全球热闻】“冰丝带”面向中小学生开放实践课堂、组织研学活动
温彬:预计发行特别国债的可能性并不大 全球播资讯
学习贯彻全会精神丨人力资源社会保障厅党组召开扩大会议专题传达学习省委十二届三次全会精神|环球微资讯
蔚来将推出售价高达7000元的手机-环球新要闻
环球今日报丨临近冬天,最适合喝汤,5种家常汤,营养暖胃,每天一碗不怕冷
岚图全新中型SUV谍照曝光!增程+纯电 PK比亚迪唐
江西安远“硒”有土壤助力乡村振兴发展路
环球时讯:班玛县多路径锻造“三色班玛”产业闪亮名片
PS Plus周年庆典宣传片:数百款大作即刻游玩!-当前动态
味精是常用的调味品,做菜时到底该不该放? 新要闻
三羊马:发行可转债募资不超2.1亿元获深交所审核通过 环球视点
泉州鲤城“组团”接单 收获满满
暴雨+雷电!多地像倒水一样!福州接下来……_环球快讯
世界即时看!速看!事关端午假期
天天播报:为什么家里不能种竹子(种竹子风水十大禁忌)
顺丰电话95338呼叫不成功_顺丰电话95338_全球消息
通苏嘉甬高铁全线首个基坑开挖
每日头条!吉林省图书馆举办“‘粽’情书海 走进端午”系列活动
生长链_关于生长链介绍_速看料
陈情令南京演唱会为什么有两场 陈情令南京演唱会两天内容一样吗
每日播报!观龙舟,品木槿!“古韵古城·资水资阳”端午美食文化旅游节开幕
国家网信办发布深度合成服务算法备案清单:百度阿里出门问问等在列 当前聚焦
为群众和企业办实事 海南启动“不动产证回家”专项行动|世界速讯
2023海口经济圈消费提振年|好热闹!秀英保利中央海岸国际餐饮文化商业街区亮灯开业
高质量发展调研行丨福建建瓯:绿色竹山渐成幸福“靠山” 讯息
优优汇联拟向银行合计申请1160万授信 授信期限为12个月
人大团队开发双驱动系统仿真模型|全球观天下
父亲回应女儿在坟前跳舞被质疑炒作:妻子患癌早逝常去祭奠,女儿说“特别想妈妈”
今日观点!又一位34岁演员去世,曾担任央视春晚语言节目导演,死因曝光让人唏嘘-看点
世界快播:司机分神开车冲入羊群:撞死20只羊
天天速递!神话八段锦,中国神话版八段锦,送给孩子的礼物,愿孩子身体健康,坚强勇敢
江苏健身健美协会:已就“女运动员丢鞋砸裁判”成立调查组
“充满新机遇” 外国青年点赞中国数字经济发展
当前观点:安徽加快建设新能源汽车产业集群
全球速递!CAR-T细胞疗法市场规模扩张,这些标的股票值得关注!
做相片拼图用什么软件 ?这几个软件就是这么好用
小组赛末轮赢球仍有出线可能 U17国足全力争胜
小米MIX Alpha新专利曝光:最美手机要复活了?
宁波奥克斯智能科技股份有限公司中标4.7亿元项目
荔枝丰产致价格创5年新低,东莞“甜蜜”产业如何突围?
取消就业报到证,高校毕业生档案如何转? 北京官方详解 天天关注
摩羯座最容易被误会的地方
杭州对烧烤店在内的沿街餐饮店铺开展安全隐患排查整治|全球热消息
广西边境上演中越足球友谊赛 球迷冒雨观战热情不减_全球视点
欧盟呼吁科索沃北部地区重新举行选举
快消息!第十一届中德经济技术合作论坛在德国柏林举行
环球热消息:《LOL》新英雄百裂冥犬设计剖析:原型为非洲野狗!
新手包粽子攻略 基本情况讲解
全球微资讯!中国花卉有多少种(中国花卉有多少种品种)
世界微资讯!做好签收准备 smart精灵#3开启首批交付
今日热搜:持续强降雨致武夷山景区暂时闭园 福建紧急响应
平潭边检站与在岚台胞共庆端午佳节 环球即时看
世界今日报丨埃克森美孚与阿里云签署战略合作升级谅解备忘录
同花顺跌6.6% 华西证券东北证券在其月初高点唱多 环球观察
焦点速递!太湖影视文化产业投资峰会暨电影科技周在无锡启幕
晚高峰提前!全路网严重拥堵!北京目前交通指数8.1
安徽合肥:链通高新“大手拉小手”活动走进国仪量子
看点:上海就科技成果转化创新改革试点实施方案征求意见
补贴、扩招、兜底……四川促进青年就业创业将有新措施—中国新闻网·四川新闻
月底真爱难测,未来还没有结束,爱情浓烈如胶,生肖会陪伴你一生
全球最资讯丨逾期三个月了没钱还怎么办?信用卡逾期三个月可以不还吗?
思语app怎么关闭声音 思语app删除语音教程-前沿热点
作比较的作用说明方法_作比较的作用
石药集团(01093)6月21日根据股份奖励计划购买1000万股
机构:英国银行股因利率攀升“重回危险地带”_世界观速讯
《庆余年》导演孙皓谈演艺圈文盲:演员应该是金字塔尖的人_今热点
谢忠阳:以严实作风守护广大师生“舌尖上的安全”_环球即时
布林肯的访华之行,出人意料地催生了中国网络的尿壶比喻|世界新资讯
地产新闻联播丨北京多家银行房贷已下调10个基点
宜都为科技型企业及人才兑现奖补资金1789万元 引导各类创新要素向企业加速集聚 当前快报
幻方量化旗下幻方300指数增强欣享3号累计跌16%_天天快消息|天天即时看 当前视点
快播创始人_kuai bo
当前头条:携带两把刀进入北京环球度假区 一男子被警方行拘