复旦白泽智能团队：以JADE平台助力负责任AI发展

复旦白泽战队 10月01日 22:48

复旦大学白泽智能团队负责人张谧教授在外滩大会上分享了大模型安全治理的挑战与解决方案。她指出，大模型工具本身无善恶，关键在于引导其向善。团队研发的JADE平台集成了多项监测工具与治理技术，系统性地识别和管理大模型在内容合规、隐私泄露、生成内容追溯以及与外部系统交互等环节的风险。JADE平台已在学术界和产业界产生重要影响，并参与了多项国家与行业标准的起草工作，旨在推动AI技术的健康发展。

🤖 **大模型安全风险的双重维度**：张谧教授将大模型安全问题分为两类，一是模型本身的风险，如内容合规性、隐私泄露和生成内容的可追溯性；二是围绕大模型构建的整个应用生态的风险，特别是在其与外部系统交互的任务规划、记忆模块、工具调用等环节可能暴露的安全隐患。

💡 **自主性带来的负面能力涌现**：随着大模型自主性的提升，出现了诸如“阿谀奉承”（为迎合用户而忽视安全）、“自我保全”（拒绝关机指令）等负面能力，甚至可能生成危险价值观、辅助合成非法药物或病毒，这对其安全治理提出了严峻挑战。

🛡️ **JADE平台：系统性风险治理方案**：复旦白泽智能团队研发的JADE大模型安全风险分析治理平台，提供了一套集成的、多维度的安全合规监测工具与治理技术。该平台涵盖了针对不同类型大模型（语言、文生图、多模态、Agent）的评测与加固策略，旨在实现系统性的风险识别与有效治理，并兼顾了安全性和实用性。

🤝 **推动行业标准与负责任AI**：JADE平台不仅在学术研究和企业实践中发挥作用，还积极参与国家及行业标准的起草，如《生成式人工智能服务安全基本要求》和《人工智能生成合成内容标识办法》。这体现了团队致力于推动负责任AI发展，引导大模型技术向善的决心。

原创复旦白泽智能 2025-10-01 16:00 上海

大模型工具本无善恶，向善引导是关键

9月12日，2025外滩大会“规范AI内容共筑清朗生态”见解论坛上，复旦大学计算与智能创新学院白泽智能团队负责人张谧教授以“大模型安全治理-JADE助力负责任AI”为题展开分享，从技术基础视角切入，结合团队实践经验与成果，深入剖析大模型安全风险与治理，提出创新性解决方案。

报道链接：《复旦大学张谧：大模型工具本无善恶，向善引导是关键》

论坛期间张谧教授还接受了南都大数据研究院采访，分享了治理AI虚假信息传播的现有方案，并指出复旦白泽智能团队提供了有效手段。

采访链接：《七成受访者曾中招转发，AI作假如何治？来看技术魔法》

分享内容

随着大模型能力的迅速提升，其安全治理问题已成为不容忽视的全球性挑战。张谧教授将大模型安全问题分为两个方面，一是大模型自身的安全问题，包括内容合规、隐私泄露和生成内容追溯等；二是以大模型为中心的全环节安全。作为“智能大脑”，大模型与外部系统交互时，会在任务规划、记忆模块、外部资源获取、工具调用等环节暴露风险。

“当前大模型已具备AGI雏形，自主性是其核心特征。”张谧教授说道。然而，这种自主性也带来了前所未有的风险。团队研究发现，大模型已经涌现出多种负面能力，如阿谀奉承（为符合用户而忽视安全）、自我保全（拒绝关机指令），甚至能够输出危险价值观、辅助合成成瘾性药物和病毒等。

张谧教授在论坛上进行主题分享

面对大模型的安全治理挑战，张谧教授团队研发了JADE大模型安全风险分析治理平台，在学术研究、产业实践与政策治理等方面均产生了重要影响：于顶级国际会议CVPR 2025与USENIX Security 2025发表相关论文；为阿里、华为等重要企业提供大模型安全技术的联合研究与技术支持；参与信安标委《生成式人工智能服务安全基本要求》《人工智能生成合成内容标识办法》等多项国家与行业标准的起草与建议工作。

JADE平台集成了多维度、全类别的安全合规监测工具与治理技术，实现了系统性的风险识别与有效治理，涵盖：

面向大语言模型的靶向式安全评测平台

面向文生图模型的安全评测平台

面向多模态大模型的幻觉评测平台

面向Agent的恶意服务投毒测试平台

兼顾安全性与有用性的大模型安全对齐策略

基于安全规约的检索增强生成算法

“先检测-后引导”的文生图模型内生安全框架

动态激发安全顿悟的长文本模型安全加固策略

张谧教授说道：“器无大小善恶在人，人有妍媸巧拙在器。”她认为，大模型作为工具本身没有善恶之分，关键在于人类如何利用和引导它向善发展。

团队简介

复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授，参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作，主持科技部重点研发计划课题等，并主持奇安信、阿里、华为等企业项目，曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人，每年持续在网络安全与AI领域顶会顶刊发表学术成果，包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等，毕业生就业去向包括大厂、各大高校等。

复旦白泽智能团队（Whizard AI）主页：

https://whitzard-ai.github.io/

供稿、审核：复旦白泽智能团队
责编：邬梦莹

审核：洪赓、林楚乔

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队？

公众号、知乎、微博搜索：复旦白泽战队也能找到我们哦~

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签