Schrodinger follmer sampler论文解读
Read More
利用生成学习+强化学...
| 论文名称 | 研究主题 | 主要内容梳理 | 具体做法 | | — | — | — | — | | A COMPREHENSIVE SURVEY OF LLM ALIGNMENT TECHNIQUES: RLHF, RLAIF, PPO, DPO AND MORE | 大语言模型对齐技术综述 | 1. 点明大语言模型(L...
motivation: 首先需要明确, bias(偏差)和variance 这对概念与风险导出的误差是有本质的不同的,偏差与方差是衡量某一个模型的预测效果, 风险导出的近似误差(approximation error)与估计误差(estimation error)是用来衡量model class,...
离线RLHF从数据集中的轨迹中学习人类表现的策略,但面临挑战,一方面,人类反馈数据有限但状态空间非常大,人类决策的有限理性,异策略的分布偏移<...
Diffusion Guidance
Diffusion Guidance Is a Controllable Policy Improvement Operator
背景:
RLHF综述
论文框架
summary
背景
内容
第一部分
第二部分
Read More
误差与风险
bias与variance vs 误差
RLHF: reward learning:dynamic choices via pessimism
RLHF:learning dynamic choices via pessimism
背景
