热点
关于我们
xx
xx
"
reinforcement learning
" 相关文章
The Path to a Superhuman AI Mathematician
Communications of the ACM - Artificial Intelligence
2025-11-06T20:45:58.000000Z
CMU Researchers Introduce PPP and UserVille To Train Proactive And Personalized LLM Agents
MarkTechPost@AI
2025-11-06T09:56:56.000000Z
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
智源社区
2025-11-06T07:56:58.000000Z
从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
我爱计算机视觉
2025-11-06T03:55:05.000000Z
AI’s capacity crunch: Latency risk, escalating costs, and the coming surge-pricing breakpoint
VentureBeat
2025-11-05T20:27:33.000000Z
How to Build a Model-Native Agent That Learns Internal Planning, Memory, and Multi-Tool Reasoning Through End-to-End Reinforcement Learning
MarkTechPost@AI
2025-11-05T18:04:18.000000Z
RFT目前(在应用层)仍然是被低估的
孔某人的低维认知
2025-11-05T16:58:26.000000Z
解密prompt系列63. Agent训练方案:RStar2 & Early Experience etc
掘金 人工智能
2025-11-05T14:24:02.000000Z
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
理想 TOP2
2025-11-05T13:54:28.000000Z
智源具身框架Thor开源:迈向类人级全身控制,让机器人在强对抗中“站稳脚跟”
智源研究院
2025-11-05T10:05:21.000000Z
比NanoBanana更擅长中文和细节控制,兔展&北大Uniworld V2刷新SOTA
36氪 - 科技频道
2025-11-05T09:44:15.000000Z
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心
2025-11-05T07:43:26.000000Z
数字生命「培养皿」里,AI竟然学会了打架、结盟、抢地盘
机器之心
2025-11-05T07:43:16.000000Z
Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
cs.AI updates on arXiv.org
2025-11-05T05:30:11.000000Z
揽月动力完成数千万元天使轮融资,以“约化模型”推动机器人泛化能力突破 | 融资首发
钛媒体:引领未来商业与生活新知
2025-11-05T04:01:27.000000Z
谷歌Dreamer大神离职,自曝错过Transformer
36氪 - 科技频道
2025-11-05T02:38:32.000000Z
AI社交智能觉醒,新研究让模型理解人类“关系网”
MIT 科技评论 - 本周热榜
2025-11-04T23:18:00.000000Z
北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
PaperWeekly
2025-11-04T15:38:42.000000Z
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
机器之心
2025-11-04T14:56:38.000000Z
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想 TOP2
2025-11-04T13:49:57.000000Z