Reward Hacking_Fishai

热点

"Reward Hacking" 相关文章

ImpossibleBench: Measuring Reward Hacking in LLM Coding Agents

少点错误 2025-10-30T03:15:41.000000Z

惨遭Amex“杀全家”，30万MR点数瞬间消失，中文用户成最大受害群体？

抛因特达人 2025-10-24T01:50:47.000000Z

惨遭Amex“杀全家”，30万MR点数瞬间消失，中文用户成最大受害群体？

抛因特达人 2025-10-24T01:50:47.000000Z

Realistic Reward Hacking Induces Different and Deeper Misalignment

少点错误 2025-10-09T18:59:38.000000Z

Shopify 经验贴：如何搞出一个生产级别可用的 AI Agent 系统？

智源社区 2025-09-19T04:29:45.000000Z

Shopify 经验贴：如何搞出一个生产级别可用的 AI Agent 系统？

Founder Park 2025-09-17T15:20:11.000000Z

打造生产级 AI 智能体系统：来自 Shopify Sidekick 的经验教训 (2025)

宝玉的分享 2025-09-16T03:27:01.000000Z

RewardDance：字节跳动提出视觉生成奖励扩展新范式，破解“奖励劫持”难题

我爱计算机视觉 2025-09-12T12:46:40.000000Z

AI Safety at the Frontier: Paper Highlights, August '25

少点错误 2025-09-02T20:44:42.000000Z

Harmless reward hacks can generalize to misalignment in LLMs

少点错误 2025-08-26T17:45:27.000000Z

离职OpenAI后，翁荔博客首次上新，引发众多网友围观学习

Datawhale 2024-12-03T11:07:47.000000Z

Copyright © 2019 FISHAI.All Rights Reserved