Reinforcement Learning_Fishai

热点

"Reinforcement Learning" 相关文章

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型，扩散语言模型的推理性能和效率大幅提升

机器之心 2025-11-05T07:43:26.000000Z

数字生命「培养皿」里，AI竟然学会了打架、结盟、抢地盘

机器之心 2025-11-05T07:43:16.000000Z

Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering

cs.AI updates on arXiv.org 2025-11-05T05:30:11.000000Z

揽月动力完成数千万元天使轮融资，以“约化模型”推动机器人泛化能力突破 | 融资首发

钛媒体：引领未来商业与生活新知 2025-11-05T04:01:27.000000Z

谷歌Dreamer大神离职，自曝错过Transformer

36氪 - 科技频道 2025-11-05T02:38:32.000000Z

AI社交智能觉醒，新研究让模型理解人类“关系网”

MIT 科技评论 - 本周热榜 2025-11-04T23:18:00.000000Z

北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生

PaperWeekly 2025-11-04T15:38:42.000000Z

英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心 2025-11-04T14:56:38.000000Z

郎咸鹏给理想VLA新画的4个饼以及值得留意的5点

理想 TOP2 2025-11-04T13:49:57.000000Z

Karpathy点赞NUS新研究：RL微调不稳定的关键根源，指向BF16精度本身

PaperWeekly 2025-11-04T11:45:56.000000Z

Z Product｜当广告遇上强化学习，前谷歌华人高管打造广告投放的“第二大脑”，MAI首轮融资2500万美金

Z Potentials 2025-11-04T10:24:48.000000Z

英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心 2025-11-04T09:25:54.000000Z

英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心 2025-11-04T07:39:11.000000Z

Anyscale and NovaSky Team Releases SkyRL tx v0.1.0: Bringing Tinker Compatible Reinforcement Learning RL Engine To Local GPU Clusters

MarkTechPost@AI 2025-11-03T23:22:54.000000Z

让LLM不再话痨，快手HiPO框架来了

机器之心 2025-11-03T17:22:01.000000Z

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

新智元 2025-11-03T14:10:05.000000Z

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

36kr-科技 2025-11-03T12:33:21.000000Z

当强化学习学会“跳步骤”：Sergey Levine团队重写值函数的递归逻辑

PaperWeekly 2025-11-02T21:05:20.000000Z

北京内推 | 腾讯微信事业群招聘大模型后训练方向算法实习生

PaperWeekly 2025-10-30T15:15:48.000000Z

北京内推 | 腾讯微信事业群招聘大模型后训练方向算法实习生

PaperWeekly 2025-10-30T11:33:09.000000Z

Copyright © 2019 FISHAI.All Rights Reserved