热点
关于我们
xx
xx
"
Model Safety
" 相关文章
你的Agent可能在“错误进化”,上海AI Lab联合顶级机构揭示自进化智能体失控风险
36kr-科技
2025-10-16T12:30:21.000000Z
Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险
IT之家
2025-10-14T05:39:10.000000Z
Petri: An open-source auditing tool to accelerate AI safety research
少点错误
2025-10-07T20:50:18.000000Z
2025.10.06 | 15B小模型追平DeepSeek-R1;渐进蒸馏128 token省八成算力
HuggingFace 每日AI论文速递
2025-10-07T01:10:26.000000Z
故意“装菜”答错问题,AI已能识别自己“正在被测试”
36氪 AI
2025-09-19T08:00:19.000000Z
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
智源社区
2025-08-29T05:22:28.000000Z