技术笔记 从策略梯度到dpo
RLHF 技术笔记–从策略梯度到DPO
随着大语言模型的火热兴起,许多新的技术被运用,其中RLHF(Reinforcement Learning with Human Feedback)作为对大模型进行对齐的一种重要的方法受到了许多关注。本文将首先从最基本的策略梯度开始介绍PPO这一RLHF中最常用的方法,然后再介绍一...
随着大语言模型的火热兴起,许多新的技术被运用,其中RLHF(Reinforcement Learning with Human Feedback)作为对大模型进行对齐的一种重要的方法受到了许多关注。本文将首先从最基本的策略梯度开始介绍PPO这一RLHF中最常用的方法,然后再介绍一...
前段时间看了一下去年NeruIPS的一篇关于RLHF的文章,这篇文章介绍了一种新的算法——直接偏好优化(Direct Preference Optimization, DPO),它用于优化大规模非监督语言模型(Language Models, LMs),使其行为更符合人类的偏好。随着大语言模型技术的不断发展,对模型的对齐也越来越重要。大语言模型虽然能够学习广泛的世界知识和一些推理技能,...
在上一篇文章中,我们介绍了FTL算法的改进版本FTRL算法,同时在分析FTRL算法对线性损失函数的情况中看到了像Gradient Decent算法一样形式的参数更新式子,我们接下来就介绍一个将凸函数线性化分析的方法,并用这个方法去将我们之前的分析推广。
在上一篇文章中,我们介绍并分析了FTL算法,发现FTL算法在在线二次规划问题上能够获得还不错的效果,但是FTL算法的设计太简单,对于许多问题还无法得到好的结果,接下来,我们将给出一个例子,并分析FTL算法在这个例子上的表现,从而引出FTRL算法,并且从FTRL算法引出下面一篇将要分析的OGD算法。
上一篇文章介绍完在线学习的基本概念,算是对在线学习问题有了一个基本的引入。本文将介绍FTL算法。
对于当前轮的问题,我们不知道最好的解是什么,但是我们可以利用以前的那些轮得出的结果,一个最直观易懂的想法就是我们直接用使得以往的损失和最小的那个解作为我们当前轮做出的预测。这也就是Follow-The-Leader算法的想法来源...
之前看完一些在线优化的论文后一直没有写一些笔记,有一些想法都没有记录下来。最近看完了大佬Shai Shalev-Shwartz写的对在线学习的一篇survey,对之前学的算法有了更清晰的理解(不得不说大佬的文章写的是真的好,算法讲的通俗易懂),就想着写一个专栏来整理出一条自己学习的在线学习算法的路线。
这是我贝叶斯优化笔记系列的第一篇文章,本系列主要是对自己学习贝叶斯优化相关知识的一个记录,文章大多从数学角度出发,主要剖析算法的数学本质。写这个系列不仅是为了记录下学习时的想法,便于日后自己复习,同时也希望与诸君共勉,共同进步。
在机器学习中,优化一直是研究的热点之...
作为第一篇博客,我不想说太多,只想好好地打声招呼,说一句:“在这里遇到你,真开心!!”