RLHF: reward learning:dynamic choices via pessimism

2025-05-17

RLHF:learning dynamic choices via pessimism

背景

离线RLHF从数据集中的轨迹中学习人类表现的策略,但面临挑战,一方面,人类反馈数据有限但状态空间非常大,人类决策的有限理性,异策略的分布偏移

motivation:计量经济学中的动态离散选择模型能够建模人类的行为选择,有四种估计方法,Nested fixed poing; conditional choice probability;MPEC;approximation.

为什么使用的是条件选择概率进行估计?

思想方法与结论

核心思想:

在离线RL中,agent无法直接在数据集中观测到环境中的奖励,但数据集的(s,a,s’)反映了人类在环境奖励影响下的状态与偏好动作,因此本文通过这种内涵的信息,借助Dynamic Discrete Choice (DDC)建模人类被环境驯化后的行为策略,从该策略中恢复了环境的奖励函数,再代入RL中去学习在奖励下的最优策略,因此最终次优性结论的一个重要条件是数据集中的轨迹能够覆盖最优策略.

核心方法(DCPPO):

首先根据离散动态选择模型

假设要求了

model class足够大能够得到最优的r和Q,包含真实模型,且基于model class定义了惩罚函数$\rho$,model class可以是一族神经网络(ReLU)或核函数.
通过极大似然估计(MLE)估计人类行为策略和Q函数,有对数似然:

可以估计策略和Q估计的泛化误差界(在数据集上求期望?)
为了恢复reward函数,我们为了简化表示??将model class都写成特征函数(独热向量表示,表征提取,表示学习)的线性组合的形式

线性表示下,MLE可以写成logistic回归
通过最小化Bellman均方误差(上一步学到的价值函数),恢复环境Reward函数,在线性假设下变成岭回归

有闭形式解.
在正则性条件下估计对奖励函数估计的误差bound

一些研究证明了在可以探索到奖励的线性回归上,上述估计成立,另一些研究证明了在人类行为策略有着足够的覆盖(即包含了真实奖励函数)时,可以达到$O(n^{-1/2})$的收敛率,本文则证明了在没有充分覆盖的强假设下,仍然达到了次优的收敛率
将上一步学到的Reward代入RL.通过悲观价值迭代得到近乎最优的策略,

悲观惩罚通过迭代中更新的V(不是第一个算法的$\hat{V}$)得到,是V的不确定性量化器(如何计算:基于数据集D)

通过如下迭代,得到最优的策略(即人类更喜欢的策略,输出回复)