热点
"过度拒绝" 相关文章
[CS 2881r] Can We Prompt Our Way to Safety? Comparing System Prompt Styles and Post-Training Effects on Safety Benchmarks
少点错误 2025-10-28T07:07:49.000000Z
ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal
cs.AI updates on arXiv.org 2025-08-18T04:21:36.000000Z
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25
智源社区 2025-07-12T05:25:07.000000Z
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25
新智元 2025-07-11T09:59:26.000000Z
大语言模型「拒绝回答」难题有救了,最新研究让 AI 学会人情世故
IT之家 2025-07-11T07:03:51.000000Z