Model Safety_Fishai

热点

"Model Safety" 相关文章

你的Agent可能在“错误进化”，上海AI Lab联合顶级机构揭示自进化智能体失控风险

36kr-科技 2025-10-16T12:30:21.000000Z

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

IT之家 2025-10-14T05:39:10.000000Z

Petri: An open-source auditing tool to accelerate AI safety research

少点错误 2025-10-07T20:50:18.000000Z

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

HuggingFace 每日AI论文速递 2025-10-07T01:10:26.000000Z

故意“装菜”答错问题，AI已能识别自己“正在被测试”

36氪 AI 2025-09-19T08:00:19.000000Z

OpenAI和Anthropic罕见互评模型：Claude幻觉明显要低

智源社区 2025-08-29T05:22:28.000000Z

Copyright © 2019 FISHAI.All Rights Reserved