热点
关于我们
xx
xx
"
RLMT
" 相关文章
颠覆大模型后训练!陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT
智源社区
2025-09-30T13:33:18.000000Z
颠覆大模型后训练!陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT
智源社区
2025-09-30T13:33:18.000000Z
颠覆大模型后训练,陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT
36kr-科技
2025-09-29T11:02:15.000000Z
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心
2025-09-28T14:01:56.000000Z
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心
2025-09-28T14:01:56.000000Z
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心
2025-09-28T12:03:41.000000Z
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心
2025-09-28T12:03:41.000000Z
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心
2025-09-28T09:31:13.000000Z
普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
PaperWeekly
2025-09-27T01:08:13.000000Z
普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
PaperWeekly
2025-09-26T16:19:19.000000Z