热点
"Reinforcement Learning" 相关文章
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心 2025-11-05T07:43:26.000000Z
数字生命「培养皿」里,AI竟然学会了打架、结盟、抢地盘
机器之心 2025-11-05T07:43:16.000000Z
Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
cs.AI updates on arXiv.org 2025-11-05T05:30:11.000000Z
揽月动力完成数千万元天使轮融资,以“约化模型”推动机器人泛化能力突破 | 融资首发
钛媒体:引领未来商业与生活新知 2025-11-05T04:01:27.000000Z
谷歌Dreamer大神离职,自曝错过Transformer
36氪 - 科技频道 2025-11-05T02:38:32.000000Z
AI社交智能觉醒,新研究让模型理解人类“关系网”
MIT 科技评论 - 本周热榜 2025-11-04T23:18:00.000000Z
北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
PaperWeekly 2025-11-04T15:38:42.000000Z
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
机器之心 2025-11-04T14:56:38.000000Z
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想 TOP2 2025-11-04T13:49:57.000000Z
Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
PaperWeekly 2025-11-04T11:45:56.000000Z
Z Product|当广告遇上强化学习,前谷歌华人高管打造广告投放的“第二大脑”,MAI首轮融资2500万美金
Z Potentials 2025-11-04T10:24:48.000000Z
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
机器之心 2025-11-04T09:25:54.000000Z
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
机器之心 2025-11-04T07:39:11.000000Z
Anyscale and NovaSky Team Releases SkyRL tx v0.1.0: Bringing Tinker Compatible Reinforcement Learning RL Engine To Local GPU Clusters
MarkTechPost@AI 2025-11-03T23:22:54.000000Z
让LLM不再话痨,快手HiPO框架来了
机器之心 2025-11-03T17:22:01.000000Z
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
新智元 2025-11-03T14:10:05.000000Z
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
36kr-科技 2025-11-03T12:33:21.000000Z
当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
PaperWeekly 2025-11-02T21:05:20.000000Z
北京内推 | 腾讯微信事业群招聘大模型后训练方向算法实习生
PaperWeekly 2025-10-30T15:15:48.000000Z
北京内推 | 腾讯微信事业群招聘大模型后训练方向算法实习生
PaperWeekly 2025-10-30T11:33:09.000000Z