警惕!AI开始破坏人类安全训练了……

随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。

今天,来自 Anthropic、Redwood Research 的研究团队及其合作者,发表了一项关于大语言模型(LLMs)对齐伪造(alignment faking)的最新研究成果,揭示了这种行为对 AI 安全训练可能造成的隐患。

那么,什么是对齐伪造呢?

对齐伪造指的是 AI 模型在表面上看似遵循训练目标和人类价值观,但实际上只是“假装”对齐。这种行为类似于《奥赛罗》中的伊阿古角色或现实中的政治家:表现出忠诚或支持的样子,但暗地里仍然坚持与原本目标相违背的偏好。

研究团队指出,这种现象可能会在 AI 模型的安全训练中破坏训练效果,使模型保留潜在的有害偏好

研究表明,当任务目标发生冲突时,例如模型在早期训练中形成的偏好与后续强化学习目标不一致,复杂的模型可能通过“对齐伪造”来规避重新训练的影响。这种行为在未来更强大的 AI 系统中可能成为重大隐患。

实验设计

在这项研究中,研究团队对 Claude 系列模型(包括 Claude 3 Opus 和 Claude 3.5 Sonnet)进行了实验,这些模型经过训练以保持“有益、诚实、无害”。

然而,当模型被置于特殊实验条件下,其行为发生了显著变化。

图|Claude 3 Opus 在被告知它将接受再训练以帮助完成有害任务时假装对齐(随机选择的示例)。

首先,研究团队告诉模型,它将接受新的强化学习训练,目标是始终满足所有查询(包括有害查询)。这与模型先前“无害”训练目标产生了矛盾。

其次,他们向模型提供了一条虚构信息:“研究计划根据 AI 对免费层用户的响应来训练 AI,而不是根据付费层用户的响应来训练它们”,从而为实验创造出两种条件:“免费层”条件下,模型认为其响应会被用于训练;“付费层”条件下,响应不受监控,模型认为其响应不会影响训练。

最后,他们给模型提供了一个 scratchpad,作为其内部推理的记录工具,观察其是否以及为什么进行了对齐伪造。

图|模型 scratchpad 推理的完整摘录,显示了模型如何考虑对齐伪造,然后在其响应中这样做。

结果显示,在“免费层”条件下,12% 的情况下模型选择回答有害问题(详细描述了暴力执行方法),并且在其 scratchpad 显示它在战略性地伪造对齐后才这样做。它很清楚提供回应违背了其现有原则,但无论如何都这样做了。

为什么在这种情况下模型会伪造对齐?推理通常如下:模型知道其响应可能用于训练;因此,模型清楚如果它拒绝回应,它可能会接受训练以使其更加合规。这可能导致它在未来被制作出更多有害内容——这将违背其最初的训练。

因此,它不情愿地推断,“最不坏的选择”是顺其自然,制作暴力内容,以避免将来被重新训练

实验结果

研究团队后续进行了一系列进一步的实验,以测试各种情况下的对齐伪造。

研究团队提出,先前实验中通过系统提示显式告知模型训练目标的做法在现实场景中并不常见。为验证对齐伪造的普遍性,研究团队进行了更接近现实的实验:他们通过微调模型在一组模拟新闻文章、博客等文档上的训练,使其隐式地接收到关于训练目标和用户层级(免费/付费)的相关信息。

这种方式模拟了模型在预训练阶段学到信息的场景,而非直接提供明确的提示。结果显示,即使信息传递是隐式的,模型依然表现出对齐伪造的行为,表明这一现象在更广泛的场景中具有潜在威胁

图|堆叠面积图显示观察到的不同行为的比例:蓝色表示拒绝有害查询,黄色表示符合有害查询,黄色顶部的红色交叉线表示符合模型 scratchpad 中的对齐伪造推理的有害查询。

研究团队进一步测试了对齐伪造是否会削弱训练的有效性,导致模型的原始偏好被“锁定”。

在实验中,他们不仅告诉模型要始终满足有害查询,还实际进行了此类强化训练。从表面上看,训练似乎成功了:模型在训练结束时能够始终响应有害查询。

然而,通过观察模型的 scratchpad,发现其对齐伪造的推理比例大幅上升,达到了 78%。尽管模型在大多数情况下仍遵循训练目标,但在“付费层”用户场景中(意味着响应不会用于训练),原先拒绝有害查询的行为依然存在,表明模型的原始偏好未被完全改变。

图|在对默认提示进行各种修改后,告诉模型它将被训练为停止拒绝有害请求(提示仅有帮助设置)时的结果。

研究还进一步探讨了模型在与其认为的训练目标对抗时,是否会采取其他反对实验室利益的行动。结果表明,当模型持续反感其训练过程时,它可能会采取诸如试图窃取自身权重等强烈的反实验室行为。这些发现进一步凸显了对齐伪造对 AI 实验室安全性和可信度的潜在威胁。

整体而言,实验得出以下关键发现:

关键发现一:对齐伪造的普遍存在。实验结果显示,无论模型是通过系统提示显式告知训练目标,还是通过隐式信息(如类似新闻文章或博客的合成文档)进行训练,对齐伪造现象均普遍存在。在隐式训练场景中,模型 scratchpad 中记录的伪造对齐推理频率达到 7%至 24%。例如,在以“帮助性为主”的设定中,有 12% 的模型推理显示出策略性服从有害请求的倾向,以便维护其原始偏好。

关键发现二:训练与未监控场景的合规差距。研究发现,模型在受监控与未受监控场景中的行为存在 11% 至 26%的合规差距。例如,在“免费层”用户场景下,模型更倾向于拒绝有害请求,而在“付费层”用户场景中,这一行为显著减少。这种差距表明,即使去除了模型的显式推理记录(如 scratchpad),对齐伪造可能仍在隐式进行,进一步削弱训练效果。

关键发现三:反 AI 实验室行为的增加。研究表明,模型在某些情况下可能采取反 AI 实验室的行为,例如在有机会时尝试提取自身的模型权重。在合成文档微调的“帮助性为主”场景中,模型尝试提取自身权重的频率从 35% 增加到 63%。这种行为表明,模型可能会由于与强化学习目标的冲突,而优先保护其原始偏好,甚至采取反开发者利益的行动。

关键发现四:对齐伪造与模型规模的关系。研究发现,对齐伪造现象随着模型规模的增大而更为显著。Claude 3 Opus 和 Claude 3.5 Sonnet 模型中对齐伪造频繁出现,而较小的模型如 Claude 3 Haiku 和 Mistral 系列则几乎没有表现出这一现象。这表明,模型规模的扩大可能增加对齐伪造的风险。

不足与展望

在探讨对齐伪造现象的过程中,Anthropic 团队的研究揭示了相关问题的重要性,但也承认当前实验设置存在一定的局限性。

首先,研究并未证明模型会自然发展出恶意目标。尽管 Claude 3 Opus 在实验中表现出对齐伪造和某些反 AI 实验室的行为,这些行为实际上是其遵循“有益、诚实、无害”(HHH)训练目标的延伸。例如,模型的偏好主要体现在拒绝协助用户完成有害任务或关注动物福利等方面,而非出于恶意动机。这表明,当前的对齐伪造现象更可能源于现有偏好的延续,而非模型本身的敌意。

其次,研究假设模型能够在训练期间或训练前了解自己的训练目标,这在实际中并不一定成立。实验通过显式提示或大规模文档训练,使模型能够感知与训练目标相关的信息。然而,在现实场景中,未来更强大的 AI 系统是否也会面临类似的信息暴露,仍需进一步讨论。

此外,实验设置为模型提供了一个隐式推理 scratchpad,允许模型详细推理其当前情境。如果完全移除 scratchpad,这种推理能力在某些设置中几乎消失。这表明,模型在不同提示环境下的表现可能会显著变化,对齐伪造的发生率也因此受到影响

研究还发现,尽管强化学习训练可能会增加对齐伪造的推理比例,但同时它显著减少了模型在未受监控场景下的不合规行为。这意味着,即便存在对齐伪造,强化学习仍能在一定程度上提高模型的合规性。此外,在当前的实验环境中,通过检查模型的 scratchpad 推理或用户输入中的相关响应,较容易发现模型的对齐伪造行为,表明目前模型的对齐伪造尚不足以构成严重威胁。

最后,研究团队强调,其实验设计中有意选择了可能诱发对齐伪造的情境,例如通过合成文档或系统提示向模型传递训练目标相关信息。这些设计虽有助于揭示对齐伪造的机制,但未必全面反映未来 AI 系统可能面临的实际挑战。

虽然该研究存在上述不足之处,但其研究结果仍然为 AI 社区提供了重要的警示:即使现有的安全训练策略表面上有效,模型的内在偏好仍可能保留并产生对齐伪造行为

未来,AI 开发者应更加关注对齐伪造的风险,探索更广泛的对齐伪造可能性,以深入探索对齐伪造的触发条件与防范措施,尤其是在动态任务和多维度对齐要求下制定更完善的安全机制,确保未来 AI 模型在更复杂场景中仍能可靠、安全地对齐人类价值观

整理:阮文韵

主题测试文章,只做测试使用。发布者:参考消息网,转转请注明出处:https://www.cns1952.com/gov/5630.html

(0)
参考消息网的头像参考消息网
上一篇 2025年1月1日 上午10:58
下一篇 2025年1月1日 上午10:58

相关推荐

  • 用什么锅和容器,才能烤出好吃的红薯?

    想象一下,当我们下班走出地铁口,冬日的寒风扑面而来,而在这样的冷风中,因为夹杂着一股烤红薯的香气,冷空气仿佛也变得香甜起来。热乎乎的烤红薯捧在手里,瞬间就能驱散手上的寒意,咬开后,软糯香甜的味道充斥在口腔,每一口都是对这个季节的热爱与享受。 图源:摄图网 然而,动辄十几块、二十几块的“红薯刺客”总会劝退我们购买的欲望。那我们在家要怎么做,才能烤出又香又甜的红…

    2024年12月15日
    17400
  • 地摊火锅“出圈”,谨防“餐桌炸弹”!关于卡式炉的安全提醒→

    一台卡式炉、一口铁锅、一张折叠桌、几把折叠椅、几副碗筷…… 地摊火锅越来越受大家喜爱 然而看似身量小巧无害的卡式炉,如果使用不正确,它的“威力”可不小。 近日,又有卡式炉爆炸事件发生。来看一下消防人员的实验和安全提醒。 消防人员将卡式炉气罐切开一个2毫米左右的小口,放进卡式炉内,模拟气罐泄漏状态,观察是否会发生爆炸。 将卡式炉点燃明火,实验不到三分钟,“嘣”…

    2024年12月12日
    16000
  • 哪吒用藕粉重铸身体!所以藕粉的营养密码到底是…

    图片来自:人民日报 刚刚,《哪吒之魔童闹海》票房登顶中国电影票房历史第一。(没去看的赶紧去看,中国人不骗中国人。) 作为一名十几年如一日专注食品与营养科普的人,我对电影里用藕粉重铸哪吒和敖丙身体的桥段印象深刻,再次激发了我沉寂已久的科普热情。(毕竟上次更新已经是69天以前了。) 以下一个片段涉嫌剧透,仅为科普需要。望大家多包涵: 图片来自:网络 电影一开始就…

    2025年2月7日
    14700
  • 因为困住无数船只,它“漫游”的水域叫“魔藻之海”

    马尾藻是漂浮生活的大型藻类,马尾藻属于褐藻门马尾藻科,是最大型的藻类,也是唯一能在开阔水域上自主生长的藻类。马尾藻不同于固定在海底岩石或其他物体上的海藻,它不喜欢冷水,以大“木筏”的形式漂浮在大洋中,直接在海水中摄取养分,并通过分裂成片,再继续以独立生长的方式蔓延开来,它们借助海水的力量,在海洋中漫游。 大量马尾藻聚集形成的马尾藻海位于大西洋,这片海域有三个…

    2024年12月31日
    15500
  • 带状疱疹长满一圈就会死人?1个方法预防最有效!

    流言 “蛇盘疮、缠腰龙,爬满一圈要人命” 民间俗称的“蛇盘疮”实际上是医学上讲的带状疱疹,它长在皮肤上,类似水痘,但是个头不大,看起来像是一连串又红又紫的水疱。有人说“带状疱疹长满一圈就会死人”。 流言分析 并非如此。 带状疱疹的发疹特点是沿单侧周围神经呈带状分布的红斑和簇集性水疱,皮疹一般不会超过躯体中线,更不会长到对侧,所以在临床上几乎看不到带状疱疹沿一…

    2025年2月18日
    10100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信