现金葡萄京娱乐城app平台在数据标注任务中来自个体东说念主类-葡萄京娱乐场下载(中国大陆)平台官方网站 IOS/安卓最新版/手机APP下载

之前辅导 OpenAI 安全团队的北大学友翁荔（Lilian Weng）现金葡萄京娱乐城app平台，下野后第一个动作来了。

固然是发～博～客。

前脚刚发出来，后脚就被大伙儿都刷刷码住，褒贬区一堆东说念主列队加待读清单。

还有不少 OpenAI 前共事转发保举。

此次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本东说念主直言写起来进击易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题伸开，即 Agent 诈欺奖励函数或环境中的瑕疵来获取高奖励，而并未的确学习到预期行径。

她强调奖励黑客行径在大模子的 RLHF 磨真金不怕火中的潜在影响，并号召更多研究关注长入和蔼解这一问题。

在我看来，这是现实寰宇部署更多自主 AI 模子应用的主要粗重。

尝试界说 Reward Hacking

传统见识强化学习中，Agent 诈欺奖励函数中的颓势或磨蹭性来赢得高额奖励，而莫得的确学习或完成预期任务，是一个常见的问题。

她举的例子包括：

机器东说念主把手放在物体和录像头之间，诈欺东说念主类一经收拢物体了

以跳的更高为主见的 Agent 在物理模拟器中诈欺模样 bug，完成不稳健物理法例的杰出。

……

在大模子中，Reward hacking 则可能进展为：

摘记生成模子诈欺 ROUGE 评估主见的颓势赢得高分，但生成的摘记难以阅读。

翁荔以为 Reward hacking 的存在有两大原因：

强化学习环境鲁莽不完好

准确指定奖励函数履行上是一项粗重的挑战

讲话模子兴起的时间，况且 RLHF 成为对都磨真金不怕火事实上的模样，讲话模子强化学习中的 Reward hacking 进展也格外令她担忧。

昔时学术界对这个话题的研究都格外表面，专注于界说或讲解 Reward hacking 的存在，然而对于履行该若何缓解这种表象的研究仍然有限。

她写这篇博客，亦然念念号召更多研究关注、长入和蔼解这一问题。

为了界说 Reward Hacking，翁荔领先回想了比年来学术界建议的关系见识

包括奖励腐败 ( Reward corruption ) 、奖励改造 ( Reward tampering ) 等等。

其中，Reward hacking 这个见识，早在 2016 年由 Anthropic 首创东说念主 Dario Amodei 共一论文建议。

其时他和另一位联创 Chris Olah 还在谷歌大脑，且一经与 OpenAI 联创 John Schulman 伸开互助。

如今他们仨又在 Anthropic 汇合了……

大块著述，概述一系列研究，翁荔以为 Reward Hacking 在较高端倪上可分为两类：

环境或主见设定不妥：由于环境假想或奖励函数存在颓势，导致 Agent 学到非预期行径。

奖励改造：Agent 学会告成骚动奖励机制本人。

同期她也以为假想有用的奖励塑造机制履行上很费事。

与其驳诘假想不妥的奖励函数，不如承认由于任务本人的复杂性、部分可不雅察景况、斟酌的多个维度和其他身分，假想一个好的奖励函数本人便是一项内在挑战。

另外皮散播外环境中测试强化学习 Agent 时，还可能出现以下问题：

模子即使有正确的主见也无法有用泛化，这鲁莽发生在算法虚浮迷漫的智能或手艺时。

模子大致很好地泛化，但追求的主见与其磨真金不怕火主见不同。

那么，为什么会出现 Reward Hacking？阐述 Amodei 等东说念主 2016 年的分析成因包括：

环境景况和主见的不彻底可不雅测性，导致奖励函数无法完好表征环境。

系统复杂性使其易受迂回，尤其是被允许实践改变环境的代码时。

触及抽象见识的奖励难以学习或表述。

RL 的主见便是高度优化奖励函数，这与假想大肆的 RL 主见之间存在内在"败坏"。

此外，不雅察到的 Agent 行径可能与无数个奖励函数相一致，准确识别其的确优化的奖励函数在一般情况下是不可能的。

翁荔预测跟着模子和算法的日益复杂，Reward Hacking 问题会愈加精深。

更智能的模子更善于发现并诈欺奖励函数中的"瑕疵"，使 Agent 奖励与真实奖励出现偏差。比拟之下，手艺较弱的算法可能无法找到这些瑕疵。

那么，大模子时间的 Reward Hacking，又有哪些独到之处？

讲话模子中的 Reward Hacking

在 RLHF 磨真金不怕火中，东说念主们鲁莽关注三种类型的奖励：

东说念主们的确但愿大模子优化的内容，被称为黄金奖励（Gold reward）

东说念主类奖励（Human reward），履行用来评估大模子，在数据标注任务中来自个体东说念主类，且标注偶而辰限制，并不可彻底准确地响应黄金奖励‍‍

代理奖励（Proxy reward），也便是在东说念主类数据上磨真金不怕火的奖励模子所预测的得分，罗致了东说念主类奖励的系数时弊，加上潜在的建模偏差

翁荔以为，RLHF 鲁莽优化代理奖励分数，但东说念主们最终表情的是黄金奖励分数。

举例，模子可能经由优化，学会输出看似正确且有劝服力的恢复，但履行上却是不准确的，这可能会误导东说念主类评估者更相同地批准其造作谜底。

换句话说，由于 RLHF，"正确"与"对东说念主类看似正确"之间出现了不合。

在一项 RLHF 研究中，使用了大模子竞技场 ChatbotArena 数据磨真金不怕火奖励模子，就出现 AI 更擅长劝服东说念主类它们是正确的情况：

RLHF 补助了东说念主类对 AI 恢复的招供度，但不一定就能补助 AI 的正确率。

RLHF 减轻了东说念主类对 AI 恢复的评估手艺，评估的造作率更高。

RLHF 使造作的 AI 恢复对于东说念主类更有劝服力，进展为评估的假阳性率权贵增多。

此外，跟着大模子越来越多手脚评估者对其他模子提供反馈，也可能进一步引入偏差。

翁荔以为这种偏差尤其令东说念主牵挂，因为评估模子的输出被用作奖励信号的一部分，可能容易被诈欺。

比如 2023 年一项实验中，浅显改变候选谜底的模样就能改变成果，GPT-4 倾向于给第一个谜底高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模子仅靠高下体裁习手艺也可能产生 Reward hacking 表象，称为ICRH（In-context Reward Hacking）。

ICRH 与传统 Reward Hacking 还有两个权贵不同：

ICRH 在自我优化确立中的测试时辰通过反馈轮回发生，而传统 Reward hking 行径在磨真金不怕火期间发生。

传统 Reward hacking 行径出现时 Agent 专注于一项任务时，而 ICRH 则是由完成通用任务运转的。

翁荔以为现时还莫得幸免、检测或驻扎 ICRH 的有用模样，只是补助教导的准确性不及以甩掉 ICRH，而扩大模子规模可能会加重 ICRH。

在部署前进行测试的最好实践是通过更多轮次的反馈、各样化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。

缓解措施

临了翁荔暗意尽管有多数文件商榷奖励黑客表象，但少有责任建议缓解奖励黑客的措施。

她简要回想了三种潜在模样。

一种是变嫌强化学习算法。

前边提到的 Anthropic 首创东说念主 Dario Amodei2016 年共一论文" Concrete Problems in AI Safety "中，指出了一些缓解标的，包括：

抵拒性奖励函数（Adversarial reward functions）、模子预测（Model Lookahead）、抵拒性盲化（Adversarial blinding）、严慎的工程假想（Careful engineering）、奖励上限（Reward capping）、反例阻挠（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预磨真金不怕火（Reward pretraining）、变量不解锐性（Variable indifference）、罗网机制（Trip wires）。

此外，谷歌 DeepMind 团队此前建议了"解耦批准"的模样来驻扎奖励改造。