北京前瞻人工智能安全与治理研究院正式成立，中科闻歌董事长王磊任副院长

来源：发布时间：2025/05/23 浏览量：

在全球人工智能技术迅猛演进与安全治理挑战日益凸显的背景下，北京前瞻人工智能安全与治理研究院（以下简称“研究院”）于近日在北京揭牌成立。研究院由北京市经济和信息化局指导，以“前瞻性、战略性、系统性”为核心理念，旨在构建覆盖技术研发、伦理审查、风险评估与应急处置的全链条人工智能安全治理体系。中国科学院自动化研究所研究员、北京市人工智能安全与超级对齐重点实验室副主任、中科闻歌董事长王磊受聘为副院长。

图片来源：北京前瞻人工智能安全与治理研究院

研究院将依托多学科交叉优势，通过标准制定、国际合作与公共政策研究等多元化路径，为企业、社会和政府提供人工智能安全护栏、安全人工智能模型与服务，推动AI技术在普惠、包容与可持续方向上的应用与发展。

研究方向与主要成果

1. 人机协同对齐框架

提出“人类—AI协同对齐”新范式，将对齐（alignment）重新定义为人机共生过程，强调外部监督（以人为核心的决策机制与可解释校正）与内生主动对齐（基于认知与共情的意图推断与价值判断）双重路径的有机结合。

该框架为确保AI系统在演化过程中与人类核心价值观保持一致提供了理论支撑，并为后续可持续共生社会建构提供了方法论指引。

2. 大规模语言模型安全性

“越狱解药”方法：在模型求解过程中，通过动态调整内部稀疏激活子集，实现安全性与性能的平衡。该方法在不增加显著计算开销的前提下，验证了对越狱攻击的有效防御能力，具备轻量化与稳定性优势，适合实际部署。

“压力提示词”研究：借鉴心理学中Yerkes–Dodson曲线的理论，系统揭示了提示词“压力”强度与大型语言模型输出质量之间的非线性关系，为理解模型韧性与稳定性提供了实证依据。

可缩放越狱攻击探索：基于资源密集型任务的执行，研究团队演示了在受限计算与存储环境中绕过安全策略的方法，揭示了LLM安全机制在极端工况下的脆弱性，并指出了强化防御策略的必要性。

观点与策略

● AI安全进程

强调全球化、包容性与社区驱动的治理进程，以实现跨国界、跨时域的一致性与可扩展性。

● 通过国际合作促进全球AI安全与治理能力建设

主张从被动风险管理转向主动安全框架，通过全生命周期的安全保障机制，提升AI系统的可靠性与可控性。

● 避免人工智能灾难性风险以实现人工智能健康发展

倡导以政策支持、机构协同与国际合作为手段，参与联合国AI能力建设决议等全球性治理平台，构建以联合国为主导的全球包容性治理框架，保障AI技术助力可持续发展与人类共同未来。

北京前瞻人工智能安全与治理研究院院长曾毅指出，当下，人工智能技术带来的隐私侵犯、虚假信息、人工智能幻觉、偏见歧视、自主系统风险等隐患，让人工智能安全与治理问题与社会中的每一个人息息相关，“安全、伦理与治理将促进人工智能的稳健发展。”

中科闻歌董事长王磊于2024年在瑞士日内瓦举办的信息社会世界峰会（WSIS+20）上提出“负责任AI（Responsible AI）三重路径”：技术开源化→生态协同化→治理共识化，通过制度创新与技术赋能协同演进，实现“安全可控”与“开放创新”的动态平衡，驱动人工智能成为社会进步的核心动能。作为研究院的主要发起机构之一，中科闻歌已将多模态数据智能分析及AI安全技术应用于决策智能场景，为行业提供了切实可行的解决方案。

上一篇：无

下一篇：无

DIOS认知与决策基础平台

雅意大模型

媒体

产品

解决方案

雅意大模型

社会计算

产品

解决方案

雅意大模型

金融

产品

解决方案

雅意大模型

治理

解决方案

雅意大模型

北京前瞻人工智能安全与治理研究院正式成立，中科闻歌董事长王磊任副院长

业务合作

在线留言

请留下您的信息，我们会第一时间与您联系