RLHF综述
| 论文名称 | 研究主题 | 主要内容梳理 | 具体做法 | | — | — | — | — | | A COMPREHENSIVE SURVEY OF LLM ALIGNMENT TECHNIQUES: RLHF, RLAIF, PPO, DPO AND MORE | 大语言模型对齐技术综述 | 1. 点明大语言模型(L...
| 论文名称 | 研究主题 | 主要内容梳理 | 具体做法 | | — | — | — | — | | A COMPREHENSIVE SURVEY OF LLM ALIGNMENT TECHNIQUES: RLHF, RLAIF, PPO, DPO AND MORE | 大语言模型对齐技术综述 | 1. 点明大语言模型(L...
motivation:
首先需要明确, bias(偏差)和variance 这对概念与风险导出的误差是有本质的不同的,偏差与方差是衡量某一个模型的预测效果, 风险导出的近似误差(approximation error)与估计误差(estimation error)是用来衡量model class,...
离线RLHF从数据集中的轨迹中学习人类表现的策略,但面临挑战,一方面,人类反馈数据有限但状态空间非常大,人类决策的有限理性,异策略的分布偏移<...