热点
"Post-training" 相关文章
OpenAI前CTO Mira Murati团队又放大招,让大模型训练成本暴降10倍
夕小瑶科技说 2025-10-28T13:51:54.000000Z
RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
PaperWeekly 2025-10-27T15:12:46.000000Z
会看图≠会画图:SRUM用理解教会生成,探索统一多模态自我进化之路
PaperWeekly 2025-10-27T12:24:00.000000Z
会看图≠会画图:SRUM用理解教会生成,探索统一多模态自我进化之路
PaperWeekly 2025-10-24T14:52:30.000000Z
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事
新智元 2025-10-24T09:54:50.000000Z
Sigmoidal Scaling Curves Make Reinforcement Learning RL Post-Training Predictable for LLMs
MarkTechPost@AI 2025-10-18T02:42:51.000000Z
Sigmoidal Scaling Curves Make Reinforcement Learning RL Post-Training Predictable for LLMs
MarkTechPost@AI 2025-10-18T02:42:51.000000Z
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位 2025-10-16T10:00:01.000000Z
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
36kr-科技 2025-10-15T14:06:44.000000Z
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心 2025-10-14T06:23:06.000000Z
听说,大家都在梭后训练?最佳指南来了
机器之心 2025-10-09T09:53:07.000000Z
听说,大家都在梭后训练?最佳指南来了
机器之心 2025-10-09T09:53:07.000000Z
听说,大家都在梭后训练?最佳指南来了
机器之心 2025-10-09T08:30:03.000000Z
听说,大家都在梭后训练?最佳指南来了
机器之心 2025-10-09T04:21:27.000000Z
告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
PaperWeekly 2025-10-07T23:52:56.000000Z
告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
PaperWeekly 2025-10-07T23:52:56.000000Z
南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
我爱计算机视觉 2025-10-01T08:25:53.000000Z
DeepSeek V2 系列收官,联网搜索上线官网
DeepSeek 2025-09-25T10:01:48.000000Z
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
机器之心 2025-09-22T08:26:57.000000Z
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心 2025-09-01T08:37:41.000000Z