热点
"Rubrics" 相关文章
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
新智元 2025-10-16T21:05:15.000000Z
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
新智元 2025-10-16T21:05:15.000000Z
Online Rubrics Elicitation from Pairwise Comparisons
cs.AI updates on arXiv.org 2025-10-09T04:13:41.000000Z
Interviewing Ross Taylor on the state of AI: Chinese open models, scaling reasoning, useful tools, and what comes next
Interconnects 2025-09-25T10:01:35.000000Z
一文读懂GPT-5的绝招,这是决定AI未来的隐形武器
36kr-科技 2025-09-16T20:05:27.000000Z
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
机器之心 2025-08-24T08:20:15.000000Z