reinforcement learning_Fishai

热点

"reinforcement learning" 相关文章

The Path to a Superhuman AI Mathematician

Communications of the ACM - Artificial Intelligence 2025-11-06T20:45:58.000000Z

CMU Researchers Introduce PPP and UserVille To Train Proactive And Personalized LLM Agents

MarkTechPost@AI 2025-11-06T09:56:56.000000Z

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

智源社区 2025-11-06T07:56:58.000000Z

从「会思考」到「善创造」：多模态大模型的深度推理与协同进化

我爱计算机视觉 2025-11-06T03:55:05.000000Z

AI’s capacity crunch: Latency risk, escalating costs, and the coming surge-pricing breakpoint

VentureBeat 2025-11-05T20:27:33.000000Z

How to Build a Model-Native Agent That Learns Internal Planning, Memory, and Multi-Tool Reasoning Through End-to-End Reinforcement Learning

MarkTechPost@AI 2025-11-05T18:04:18.000000Z

RFT目前(在应用层)仍然是被低估的

孔某人的低维认知 2025-11-05T16:58:26.000000Z

解密prompt系列63. Agent训练方案:RStar2 & Early Experience etc

掘金人工智能 2025-11-05T14:24:02.000000Z

对话郎咸朋：VLA 技术论战、团队换血与不被看好时的自我证明

理想 TOP2 2025-11-05T13:54:28.000000Z

智源具身框架Thor开源：迈向类人级全身控制，让机器人在强对抗中“站稳脚跟”

智源研究院 2025-11-05T10:05:21.000000Z

比NanoBanana更擅长中文和细节控制，兔展&北大Uniworld V2刷新SOTA

36氪 - 科技频道 2025-11-05T09:44:15.000000Z

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型，扩散语言模型的推理性能和效率大幅提升

机器之心 2025-11-05T07:43:26.000000Z

数字生命「培养皿」里，AI竟然学会了打架、结盟、抢地盘

机器之心 2025-11-05T07:43:16.000000Z

Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering

cs.AI updates on arXiv.org 2025-11-05T05:30:11.000000Z

揽月动力完成数千万元天使轮融资，以“约化模型”推动机器人泛化能力突破 | 融资首发

钛媒体：引领未来商业与生活新知 2025-11-05T04:01:27.000000Z

谷歌Dreamer大神离职，自曝错过Transformer

36氪 - 科技频道 2025-11-05T02:38:32.000000Z

AI社交智能觉醒，新研究让模型理解人类“关系网”

MIT 科技评论 - 本周热榜 2025-11-04T23:18:00.000000Z

北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生

PaperWeekly 2025-11-04T15:38:42.000000Z

英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心 2025-11-04T14:56:38.000000Z

郎咸鹏给理想VLA新画的4个饼以及值得留意的5点

理想 TOP2 2025-11-04T13:49:57.000000Z

Copyright © 2019 FISHAI.All Rights Reserved