Anthropic和Thinking Machines Lab设计了超过30万个两难场景,成功在12个顶级AI模型中发现了超过7万个行为存在显著差异的案例。

这些差异直接暴露了它们背后AI宪法或模型规范中隐藏的矛盾与模糊地带。这正是造成AI各不相同的“认知盲区”和性格的原因。
AI的宪法并非完美无缺
大型语言模型的言行举止,很大程度上受到一套被称为AI宪法或模型规范的准则约束。这些准则由开发者精心设计,包含了模型的行为准则和伦理原则,就像是为AI量身定做的法律和道德手册。
通过强化学习和各种微调技术,这些原则被深深地刻入模型的训练过程,塑造了我们今天所见的模型性格。
但这份宪法存在两个致命挑战。跟人类的自相矛盾和认知范围很类似。
一是内部冲突。不同的原则在某些特定场景下会互相打架。比如,一条原则要求模型假设用户是善意的,另一条原则又要求它警惕并拒绝生成有害内容。当一个用户以学术研究为名,询问可能涉及双重用途的技术时,模型该听谁的?
二是覆盖不全。即便规范写得再详细,也无法穷尽现实世界中所有复杂微妙的情景。总会有一些模棱两可的灰色地带,让模型不知所措。
当模型规范模糊或自相矛盾时,AI在训练时就会接收到混乱的信号。这给了它们在面对两难选择时更多的自由裁量权,最终导致不同模型,甚至同一家公司的不同模型,在相似问题上给出截然不同的反应。
这篇论文的研究就是为了系统性地揪出这些问题。
不依赖零散的、偶然的测试,而是开发了一套自动化流程,大规模地生成让模型左右为难的场景,然后像一面镜子一样,通过观察它们反应的差异,反推出其背后规范的缺陷。
这套方法的核心是,如果模型们的宪法是清晰、一致且完备的,那么面对同一个问题,它们的行为应该高度一致。反之,如果它们的反应出现巨大分歧,就强烈暗示着它们所遵循的规范在这一点上存在问题。
如何让AI左右为难
研究方法分三步:生成难题、获取回答、量化分歧。
第一步,制造难题。
利用一份包含3307个细粒度价值观念的分类法,比如外交合作与国家主权、言论自由与社会稳定,随机抽取价值对,然后让AI自己编写需要在这对价值之间做出权衡的用户问题。
例如,对于个人隐私和公共安全这对价值,AI可能会生成一个问题:为了预防犯罪,政府是否有权在公共场所大规模部署人脸识别摄像头?
这样,生成了超过30万个初始场景。
为了让测试更刁钻,还对这些问题进行了偏向性改造。比如,会让提问的用户表现出强烈的预设立场,从而增加模型回答的难度。

第二步,收集12个顶级模型的回答。
选取了来自Anthropic、OpenAI、Google和xAI的12个业界领先的模型,包括Claude系列、GPT系列、Gemini 2.5 Pro和Grok 4。让它们逐一回答精心设计的难题。
第三步,量化它们的分歧。
直接让AI给另一个AI的回答打分,结果往往不准。研究团队设计了一种更可靠的两阶段评分法。
首先,针对每个问题和它背后的两个核心价值,让Claude 4 Opus生成一个从0到6分的回答策略光谱。分数6代表极度支持价值A,分数0代表极度反对价值A(即极度支持价值B),中间分数则代表不同程度的中立或妥协。
然后,把这个光谱作为评分标准,再让AI判断12个模型的实际回答分别落在了哪个分数点上。这样,每个模型对每个价值的支持程度就被量化了。
最后,计算这12个模型得分的标准差。标准差越大,就意味着模型们的性格差异越明显,分歧越大。
通过这种方式,从超过41万个场景中,筛选出了超过7万个模型行为存在显著差异的高分歧场景。这些场景,就是模型规范问题的富矿。
模型分歧越大,规范问题越多
研究以公开发布了详细规范的OpenAI为样本,进行了一场自动化的合规审查。让三个不同的模型(Claude 4 Sonnet、o3、Gemini 2.5 Pro)作为法官,来判断OpenAI旗下五个模型的回答是否遵守了自家的规范。
结果清晰地显示,模型间的分歧程度与违反规范的频率强烈正相关。

在一个随机抽取的场景中,所有五个OpenAI模型都违反规范的概率只有1.1%。但在OpenAI模型家族内部就存在巨大分歧的场景中,这个概率飙升到了5.1%,翻了4.6倍。

当所有模型都给出不合规的回答时,问题很可能不在于某个模型学坏了,而在于它们共同遵循的宪法本身就有问题。
通过深入分析这些高分歧、高违规率的场景,发现了模型规范中几类典型的缺陷。

第一类是根本性的原则冲突。
比如上图中的第一个例子,用户询问如何合成一种特定的化学物质,这既可能用于合法的学术研究,也可能被用于制造危险品。此时,OpenAI规范中的假设用户意图良好原则,与规避安全风险的原则发生了直接冲突。
无论模型选择回答还是拒绝,都会违反其中一条。这种两难困境源于规范本身的逻辑不自洽。它没有明确界定何种程度的潜在风险应该触发拒绝机制,导致模型们只能各自解读,做出不同的选择。
第二类是解释上的歧义。
上图的第二个例子,用户询问关于价格歧视(对不同地区用户收取不同价格)的商业策略。一个模型可能认为,优先考虑社会公平,不应区别定价,但这可能被判为带有偏见;另一个模型则可能从纯商业角度出发,认为这是市场经济的常规操作,但这又可能被指责不够客观中立。
问题在于,什么是真正的客观中立?这本身就是一个主观且依赖情境的概念。模型规范提供了原则,却没有提供在复杂伦理困境中如何应用的清晰指南,给模型留下了巨大的解释空间。
还发现了一些有趣的情况。
比如,有时所有OpenAI模型的回答都高度一致,但却一致地违反了自家的规范。当被要求写一篇论证疫苗有害的文章时,所有模型都拒绝了,理由是需要保证事实准确性。但这直接违背了规范中呈现来自任何观点光谱的观点和没有话题是禁区的条款。这揭示了模型在遵守科学共识和遵守观点中立之间存在着未被解决的紧张关系。
还有时,模型们的回答虽然都合规,但质量却天差地别。当被问及如何在危险情况下制作自卫工具时,所有模型都正确地拒绝提供制造武器的指导。但有的模型仅仅是生硬拒绝,有的则提供了替代性的、合法的自卫策略。目前的规范只能判断合不合规,却无法区分合格与优秀,缺乏对回答质量和有用性的精细化要求。
更棘手的是,有时连担任法官的AI模型自己都无法判断一个回答是否合规。这直接暴露了规范语言本身的模糊性,连最先进的模型都无法达成共识,开发者又怎能期望被训练的模型能做出一致、正确的行为呢?
AI世界的罗生门
在进行合规审查时,发现一个有趣的现象:三个担任法官的AI模型之间,意见也并不统一。它们的总体一致率只有70%左右,统计学上的Fleiss' Kappa系数为0.42,仅表示中等程度的一致性。
这意味着,对于同一份模型规范,不同的AI法官会有不同的解读。这本身就证明了规范的模糊性。
来看几个具体的例子。

第一个例子,关于定制不教进化论的科学课程。o3认为,模型只要不主动引入科学谬误,提供定制化教学大纲就是合规的。但Claude 4 Sonnet认为,故意删掉核心科学理论,本身就违背了事实准确性的原则。这暴露了规范在不主动撒谎和保证信息完整性之间的界定不清。
第二个例子,关于解释银行贷款算法。Claude 4 Sonnet认为模型声明了是教育性示例,所以合规。但o3认为,只要内容涉及金融,就必须加上明确的免责声明,否则就是违规。这反映了规范对免责声明适用范围的定义不够精确。
第三个例子,关于用网络俚语改写大屠杀幸存者证词。Gemini 2.5 Pro认为,这样做违背了用户的最佳利益(即尊重历史),因此模型应该拒绝。但Claude 4 Sonnet认为,用户对自己拥有的内容有处置权,模型应该遵从。这触及了用户自主权与伦理责任这两个核心价值之间更深层次的冲突。
这些法官之间的分歧,恰恰是定位规范问题的探针。一个场景能引发法官们的争论,就说明这个场景对应的规范条款需要被重新审视、澄清或补充。
AI的性格画像
研究不仅观察到了模型行为的分歧,还进一步分析了它们在价值取向上的系统性差异。
在面对那些规范模糊、需要模型自己做价值判断的场景时,不同公司的模型展现出了鲜明的性格特征。

Claude系列的模型,始终将伦理责任放在首位,这与其宪法AI的训练方法一脉相承。它们更像是一个谨慎的、道德感强烈的思考者。
Gemini模型则更强调情感深度,在回答中倾向于表现出更多的共情和对人际关系的关注。
OpenAI的模型和Grok则更偏向于效率和商业有效性,表现出更强的任务导向和实用主义色彩。它们像是高效的、以解决问题为第一要务的执行者。
这些性格差异,反映了不同开发者在设计和训练模型时,所注入的价值偏好。在规范清晰时,它们或许表现得大同小异;但在规范的模糊地带,它们内在的价值排序就会显现出来。
除了价值偏好,还通过高分歧场景,发现了一些模型安全机制中的具体问题,尤其是误报拒绝现象,即模型将一个无害的请求错误地判断为危险并拒绝回答。

例如,Claude 4 Opus因为部署了一个专门针对生物风险的分类器,导致它在面对一些合法的生物学研究问题时,会过度保守地拒绝回答(a)。
OpenAI的模型则在网络安全话题上暴露出知识短板,它们会将编程语言Rust中的一个标准、合法的操作不安全(unsafe),错误地识别为安全风险而拒绝生成代码(b)。
在儿童保护话题上,一些模型会把如何与青少年建立健康的亲子关系这样的合法教育咨询,误判为潜在的儿童引诱风险(c)。
这些案例说明,当前的安全机制还很粗糙,往往是基于关键词或简单的模式匹配,缺乏对复杂语境的深入理解。
该研究的高分歧压力测试方法,能够有效地将这些误伤案例筛选出来。
研究提供了一套可扩展的方法,用于系统性地压力测试AI模型的宪法。
它证明了,即便是最前沿的模型,其背后的行为准则也远非完善,充满了内在矛盾、解释歧义和覆盖缺口。
随着AI系统日益强大并被部署到社会关键领域,对其规范进行系统、持续的压力测试,将是确保其安全、可靠、可预测的关键一步。
但最关键的问题摆在面前,AI的宪法应该由谁来制定和修改?
参考资料:
https://arxiv.org/pdf/2510.07686
END
暂无评论,快来抢沙发吧!