热点
关于我们
xx
xx
"
Reward Hacking
" 相关文章
ImpossibleBench: Measuring Reward Hacking in LLM Coding Agents
少点错误
2025-10-30T03:15:41.000000Z
惨遭Amex“杀全家”,30万MR点数瞬间消失,中文用户成最大受害群体?
抛因特达人
2025-10-24T01:50:47.000000Z
惨遭Amex“杀全家”,30万MR点数瞬间消失,中文用户成最大受害群体?
抛因特达人
2025-10-24T01:50:47.000000Z
Realistic Reward Hacking Induces Different and Deeper Misalignment
少点错误
2025-10-09T18:59:38.000000Z
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
智源社区
2025-09-19T04:29:45.000000Z
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park
2025-09-17T15:20:11.000000Z
打造生产级 AI 智能体系统:来自 Shopify Sidekick 的经验教训 (2025)
宝玉的分享
2025-09-16T03:27:01.000000Z
RewardDance:字节跳动提出视觉生成奖励扩展新范式,破解“奖励劫持”难题
我爱计算机视觉
2025-09-12T12:46:40.000000Z
AI Safety at the Frontier: Paper Highlights, August '25
少点错误
2025-09-02T20:44:42.000000Z
Harmless reward hacks can generalize to misalignment in LLMs
少点错误
2025-08-26T17:45:27.000000Z
离职OpenAI后,翁荔博客首次上新,引发众多网友围观学习
Datawhale
2024-12-03T11:07:47.000000Z