Post-training_Fishai

热点

"Post-training" 相关文章

OpenAI前CTO Mira Murati团队又放大招，让大模型训练成本暴降10倍

夕小瑶科技说 2025-10-28T13:51:54.000000Z

RL记得更牢，SFT更健忘？普林斯顿陈丹琦团队改写后训练认知

PaperWeekly 2025-10-27T15:12:46.000000Z

会看图≠会画图：SRUM用理解教会生成，探索统一多模态自我进化之路

PaperWeekly 2025-10-27T12:24:00.000000Z

会看图≠会画图：SRUM用理解教会生成，探索统一多模态自我进化之路

PaperWeekly 2025-10-24T14:52:30.000000Z

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

新智元 2025-10-24T09:54:50.000000Z

Sigmoidal Scaling Curves Make Reinforcement Learning RL Post-Training Predictable for LLMs

MarkTechPost@AI 2025-10-18T02:42:51.000000Z

Sigmoidal Scaling Curves Make Reinforcement Learning RL Post-Training Predictable for LLMs

MarkTechPost@AI 2025-10-18T02:42:51.000000Z

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

量子位 2025-10-16T10:00:01.000000Z

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

36kr-科技 2025-10-15T14:06:44.000000Z

NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式

机器之心 2025-10-14T06:23:06.000000Z

听说，大家都在梭后训练？最佳指南来了

机器之心 2025-10-09T09:53:07.000000Z

听说，大家都在梭后训练？最佳指南来了

机器之心 2025-10-09T09:53:07.000000Z

听说，大家都在梭后训练？最佳指南来了

机器之心 2025-10-09T08:30:03.000000Z

听说，大家都在梭后训练？最佳指南来了

机器之心 2025-10-09T04:21:27.000000Z

告别梯度！Evolution Strategies全参微调挑战PPO/GRPO：更稳、更省、更好复现

PaperWeekly 2025-10-07T23:52:56.000000Z

告别梯度！Evolution Strategies全参微调挑战PPO/GRPO：更稳、更省、更好复现

PaperWeekly 2025-10-07T23:52:56.000000Z

南洋理工联合商汤提出Visual Jigsaw：像玩拼图一样，显著提升多模态大模型的视觉理解力

我爱计算机视觉 2025-10-01T08:25:53.000000Z

DeepSeek V2 系列收官，联网搜索上线官网

DeepSeek 2025-09-25T10:01:48.000000Z

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

机器之心 2025-09-22T08:26:57.000000Z

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

机器之心 2025-09-01T08:37:41.000000Z

Copyright © 2019 FISHAI.All Rights Reserved