返回

北京前瞻人工智能安全与治理研究院正式成立,中科闻歌董事长王磊任副院长

来源: 发布时间:2025/05/23 浏览量:

在全球人工智能技术迅猛演进与安全治理挑战日益凸显的背景下,北京前瞻人工智能安全与治理研究院(以下简称“研究院”)于近日在北京揭牌成立。研究院由北京市经济和信息化局指导,以“前瞻性、战略性、系统性”为核心理念,旨在构建覆盖技术研发、伦理审查、风险评估与应急处置的全链条人工智能安全治理体系。中国科学院自动化研究所研究员、北京市人工智能安全与超级对齐重点实验室副主任、中科闻歌董事长王磊受聘为副院长。


图片来源:北京前瞻人工智能安全与治理研究院


研究院将依托多学科交叉优势,通过标准制定、国际合作与公共政策研究等多元化路径,为企业、社会和政府提供人工智能安全护栏、安全人工智能模型与服务,推动AI技术在普惠、包容与可持续方向上的应用与发展。


研究方向与主要成果

1. 人机协同对齐框架

提出“人类—AI协同对齐”新范式,将对齐(alignment)重新定义为人机共生过程,强调外部监督(以人为核心的决策机制与可解释校正)与内生主动对齐(基于认知与共情的意图推断与价值判断)双重路径的有机结合。

该框架为确保AI系统在演化过程中与人类核心价值观保持一致提供了理论支撑,并为后续可持续共生社会建构提供了方法论指引。


2. 大规模语言模型安全性

“越狱解药”方法:在模型求解过程中,通过动态调整内部稀疏激活子集,实现安全性与性能的平衡。该方法在不增加显著计算开销的前提下,验证了对越狱攻击的有效防御能力,具备轻量化与稳定性优势,适合实际部署。


“压力提示词”研究:借鉴心理学中Yerkes–Dodson曲线的理论,系统揭示了提示词“压力”强度与大型语言模型输出质量之间的非线性关系,为理解模型韧性与稳定性提供了实证依据。


可缩放越狱攻击探索:基于资源密集型任务的执行,研究团队演示了在受限计算与存储环境中绕过安全策略的方法,揭示了LLM安全机制在极端工况下的脆弱性,并指出了强化防御策略的必要性。


观点与策略

 AI安全进程

强调全球化、包容性与社区驱动的治理进程,以实现跨国界、跨时域的一致性与可扩展性。


 通过国际合作促进全球AI安全与治理能力建设

主张从被动风险管理转向主动安全框架,通过全生命周期的安全保障机制,提升AI系统的可靠性与可控性。


 避免人工智能灾难性风险以实现人工智能健康发展

倡导以政策支持、机构协同与国际合作为手段,参与联合国AI能力建设决议等全球性治理平台,构建以联合国为主导的全球包容性治理框架,保障AI技术助力可持续发展与人类共同未来。


北京前瞻人工智能安全与治理研究院院长曾毅指出,当下,人工智能技术带来的隐私侵犯、虚假信息、人工智能幻觉、偏见歧视、自主系统风险等隐患,让人工智能安全与治理问题与社会中的每一个人息息相关,“安全、伦理与治理将促进人工智能的稳健发展。”

中科闻歌董事长王磊于2024年在瑞士日内瓦举办的信息社会世界峰会(WSIS+20)上提出“负责任AI(Responsible AI)三重路径”:技术开源化→生态协同化→治理共识化,通过制度创新与技术赋能协同演进,实现“安全可控”与“开放创新”的动态平衡,驱动人工智能成为社会进步的核心动能。作为研究院的主要发起机构之一,中科闻歌已将多模态数据智能分析及AI安全技术应用于决策智能场景,为行业提供了切实可行的解决方案。  


IPO
系列

IPO产品系列

企业
出海

企业出海系列产品

关注中科智库公众号
即享最新权威资讯洞察

下载智看APP
开启舆情咨询
商业洞察专业服务

下载智看APP
开启舆情咨询
商业洞察专业服务

在线留言

请留下您的信息,我们会第一时间与您联系

所有提交信息,我们将严格为您保密

您已阅读并同意用户授权协议