Reinforcement learning_Fishai

热点

"Reinforcement learning" 相关文章

摩尔线程大模型对齐研究获顶会认可：URPO框架入选 AAAI 2026

摩尔线程 2025-11-13T17:01:12.000000Z

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

机器之心 2025-11-13T14:01:00.000000Z

谷歌DeepMind最新论文，刚刚登上了Nature！揭秘IMO最强数学模型

新智元 2025-11-13T13:03:28.000000Z

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

机器之心 2025-11-13T10:19:05.000000Z

谷歌DeepMind最新论文，刚刚登上了Nature，揭秘IMO最强数学模型

36氪 AI 2025-11-13T10:09:27.000000Z

微软 Agentic 组织：下一代 AI 系统

PaperAgent 2025-11-13T09:43:16.000000Z

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

机器之心 2025-11-13T09:31:42.000000Z

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

机器之心 2025-11-13T09:01:19.000000Z

刚刚，DeepMind再登Nature：AlphaProof首夺国际数学奥林匹克银牌

36氪 AI 2025-11-13T08:35:25.000000Z

RL 环境与智能体能力金字塔

宝玉的分享 2025-11-13T07:44:06.000000Z

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心 2025-11-13T05:46:31.000000Z

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT：仅30个样本教会大模型高效推理，token消耗降低50%

机器之心 2025-11-12T19:26:14.000000Z

对话元理智能张帆：为什么「商业强化学习」，才是 AI To B 的新出路

极客公园 2025-11-12T17:35:00.000000Z

6666！NuerIPS满分论文来了

智源社区 2025-11-12T14:51:59.000000Z

How Deductive AI saved DoorDash 1,000 engineering hours by automating software debugging

VentureBeat 2025-11-12T14:07:19.000000Z

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

智源社区 2025-11-12T11:07:50.000000Z

Learning from failure to tackle extremely hard problems

ΑΙhub 2025-11-12T10:22:02.000000Z

上交×蚂蚁发布 DiagGym：以世界模型驱动交互式医学诊断智能体

机器之心 2025-11-12T08:52:12.000000Z

专访前FAIR研究总监田渊栋：Meta裁员之后，对AI的一些遗憾与思考

36氪 AI 2025-11-12T08:02:14.000000Z

强化学习 AI 系统的设计实现及未来发展

AI前线 2025-11-12T07:31:09.000000Z

Copyright © 2019 FISHAI.All Rights Reserved