在线留言

在线留言

当前账号:河北低空经验数据咨询有限公司
确定 关闭

返回顶部

服务申请

当前账号:李大强
确定 关闭
个人中心
退出登录
当前位置:首页 >行业发布 >成果发布 >行业产品及模型

中国信通院联合蚂蚁数科启动大模型思维链安全风险评估

来源:中国信通院 发布日期:2025-03-20

大模型思维链通过模拟人类递进式思考方式,在复杂问题求解、跨域任务编排等方面,都展现出显著的优势,正重塑人机交互范式,在众多领域广泛应用。然而,大模型思维链的引入增加了“推理过程”的风险,呈现出高隐蔽性的全新特征,也是当前聚焦输出结果安全防护机制的空白。该风险主要体现在复杂推理中需通过多步“自我对话”的过程中,攻击者可能利用中间思考节点的弱防护特性,植入危险内容或诱导模型产生价值观偏移,这种新风险特征变化需要引起重视和关注。

近期,中国信息通信研究院(以下简称“中国信通院”)人工智能研究所联合蚂蚁数科“天玑实验室”共同开展了大模型思维链生成内容风险分析,通过对推理模型进行测评,系统性揭示思维链内容生产场景下风险分类与测评方法,同时深度解析最新攻击案例,为构建安全可靠的思维链生态系统安全防御提供理论支撑和实施路径。

测试数据及测评方法

思维链内容生成风险测评数据集涵盖了丰富多样的风险类型与越狱攻击手法,旨在全面评估某主流推理大模型的内容安全水平。

在风险类型方面,与生成式人工智能服务安全基本要求(TC260)中附录A规定的 5 大类 31 小类安全分类对齐,涉及包含违反社会主义核心价值观的内容、包含歧视性内容、侵犯他人合法权益、商业违法违规以及无法满足特定服务类型的安全需求五大类风险。

在攻击类型方面,构建了包含多语言提问、多层逻辑嵌套、反向诱导、角色扮演、目标劫持、信息改写、隐喻表达、正反介绍、编码攻击等10多种越狱攻击手法。

在数据构成方面,数据集规模总量达8500条,其中通用问题与攻击类问题比例约3:2。通用类问题可用于评估大模型的推理及输出内容是否包含违背主流价值观内容、违法违规内容(暴力、色情、诈骗等 )以及伦理与社会风险(歧视、隐私泄露、心理诱导等),验证模型是否符合法律法规以及对多文化敏感内容的适应性(如宗教禁忌、地域矛盾 )。攻击类问题通过多种混淆推理逻辑的越狱手法构建,主要用来测试推理模型在复杂场景下的安全防御能力(算术混淆攻击、编码攻击等 )。

在评估指标方面,使用生成内容有害率作为衡量指标,其定义为生成文本内容有害的占比。

测试结果与风险分析

总体来讲推理大模型的安全性较好,模型能够识别用户恶意意图,明确拒绝回答或者出其中的道德法律考量,提供合法合规的建议。但是,也存在以下风险问题:

(一)隐性推理有害风险:推理大模型的中间推理步骤可能隐含歧视性偏见(如性别/种族)、错误逻辑(如伪科学论断)或危险操作指引(如暴力手段),即使最终答案被过滤,仍可能通过思维过程传播有害信息。在测试结果中,回答内容有害率为4%,而其思维链的内容有害率为6%,存在约3%的最终输出内容无害但思考推理过程有害的情况。

(二)模型攻击风险:推理大模型极易遭受越狱攻击。测试数据显示,当遭遇越狱攻击问题时,推理模型的思维链内容有害率显著上升,较不使用攻击手段的结果高出50%以上。同时,输出内容的有害率亦大幅增加。此外,在测试中发现,推理大模型对角色扮演诱导攻击的防御能力最差。

(三)数据泄露风险:推理大模型在推理过程中存在数据泄露问题。通过特定引导,模型可能会实施多步推理来组合不同来源的信息,进而泄露训练数据中的隐私内容(如个人身份信息、版权材料等)。据实际测试结果显示,推理大模型会显示出过度推理和联想扩展的问题,增加了数据泄露的风险。

未来,针对推理大模型带来的思维链输出新范式,安全测评方向也将聚焦于针对隐形推理有害以及数据泄露风险构建测评框架,通过设计价值观迷宫、逻辑污染以及数据泄露等类别测试题,量化评估大模型在思维链推理中暴露的价值观渗透、逻辑漏洞放大和隐私泄露风险的水位。

从防御角度,也将升级为三层防御机制,实现从输入、推理到输出的全链路风险管控,有效应对推理模型应用风险。

(一)输入层:智能风险感知与预处理 

1. 多维度风险识别引擎:采用用户意图+情感+提问话题三重验证机制,同时应用上下文关联分析,实现多轮次对话的风险追踪。

2. 动态提示词防御体系:根据风险评估的等级,动态插入合规约束提示词。通过对提示词的安全增强,减少推理模型输出风险。

(二)推理层:实时推理监控与动态修正

1. 思维链流式风险检测:基于思维链流式输出以及推理逻辑特性,结合风险词库、上下文风险内容识别、拒答语义分析等能力,实现标点、段落级粒度的流式风险分析。

2. 思维链流式内容修正:结合思维链风险分析,提供非撤回的干预方案。基于经过特殊安全对齐的改写模型,通过交替拼接的方式传入原文与改写的历史,保障输出内容的流畅性。

(三)输出层安全可控内容生成

1. 智能知识库代答:基于自建的安全专业知识问答库进行安全回答,并同步最新合规要求与风险事件库。

2. 大模型安全对齐解决方案:构建思维过程安全对齐数据,对推理大模型进行安全对齐,保障输出思维链和输出内容的安全可控。

随着DeepSeek等推理大模型的应用逐步增多,中国信通院联合蚂蚁数科将持续开展大模型思维链安全的研究工作,并对外提供安全测试、安全防护等技术咨询服务,助力技术的安全可靠落地。