阿里巴巴夸克大模型团队招聘强化学习研究型实习生

PaperWeekly 前天 23:14

阿里巴巴夸克大模型团队招聘强化学习研究型实习生

阿里巴巴夸克大模型团队正在北京招聘一名强化学习研究型实习生。该岗位致力于研发新一代大模型强化学习算法，提升模型在多模态、工具调用、复杂环境交互及多智能体交互等方面的能力。同时，实习生需改进大规模分布式强化学习框架，优化万卡集群下的训练效率，并将研究成果融入夸克产品生态。要求硕士及以上学历，数学、强化学习、NLP等相关专业，具备扎实的深度强化学习算法和深度学习框架知识，以及良好的编程和协作能力。有大模型RLHF、RL reasoning、Agentic RL项目经验或顶级会议论文发表者优先。

📍 **岗位概览与目标**：本次招聘面向北京地区，阿里巴巴夸克大模型团队正在招募一名强化学习研究型实习生。该职位的核心目标是通过研发新一代强化学习算法，显著提升大模型在多模态理解、工具调用、复杂环境交互以及多智能体协作等关键领域的性能。

🚀 **技术挑战与研究方向**：实习生将有机会参与改进大规模分布式强化学习框架，特别是在万卡集群环境下优化训练效率，以支持大模型与复杂环境和工具的高效交互。研究成果将直接应用于夸克产品生态，打造更智能、更懂用户的服务。

🎓 **任职要求与加分项**：申请者需具备硕士及以上学历，数学、强化学习或自然语言处理等相关专业背景。对深度强化学习算法在大语言模型中的应用有深入理解，熟悉主流深度学习框架（如Transformers、PyTorch、Megatron-LM），并具备扎实的编程实现能力。过往在RLHF、RL reasoning、Agentic RL等方向的项目经验，或在顶级会议发表过相关论文，以及大规模分布式RL训练经验者将获得优先考虑。

帮你找工作的 2025-10-22 12:35 北京

合适的工作难找？最新的招聘信息也不知道？

AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！

阿里巴巴

阿里夸克大模型团队在智能科技浪潮中迅速崛起，我们拥有处于上升阶段的核心业务、积累了海量的多模态数据，并配备了充足的GPU资源。在此，你将有机会直面一线的业务挑战，运用你的智慧与才华，致力于研发能为用户带来显著价值的大模型。

强化学习研究型实习生

坐标：北京

岗位职责

1. 研发新一代大模型强化学习算法，提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力；

2. 改进大规模分布式强化学习框架，优化万卡集群下的高效分布式训练效率，支持大模型与复杂环境/工具的高效交互；

3. 将强化学习研究成果融入夸克产品生态，打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。

岗位要求

1. 硕士及以上学历，数学、强化学习、自然语言处理等相关专业；

2. 在强化学习方面具有丰富的专业知识，熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识；

3. 熟悉大模型相关深度学习框架，如Transformers、PyTorch、Megatron-LM等，有扎实的编程基础和代码实现能力；

4. 具备良好的沟通、协作和解决问题的能力，能够与团队成员密切合作，共同解决问题。

加分项1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验；
2. 在强化学习、大模型训练、多智能体等研究方向在顶级学术会议上发表过论文；
3. 有大规模分布式强化学习训练经验或RL框架优化经验。

投递方式

📪 weixuyuan.wxy@alibaba-inc.com

邮件标题注明：姓名-岗位名称-AI求职

加入社群 🌟

为了更好地了解和满足大家的需求，我们建立了「求职者社群」。

加入 AI 求职社群，你可以享有招聘需求曝光、获取最新面试经验、校招准备攻略、硕博招生和独家内推渠道等服务。

扫描下方小助手的微信，pick 你心仪的岗位~

如何发布招聘

AI 求职是「PaperWeekly」旗下聚焦人工智能领域的招聘平台，涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。

目前已有百度、阿里、腾讯、字节跳动等企业发布内推岗位，欢迎大家订阅关注、发布岗位，如果你也想对公司和在招职位进行更多曝光，请联系我们的栏目负责人（微信：pwbot02）。

·

·

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习大模型实习阿里巴巴夸克 Reinforcement Learning Big Model Internship Alibaba Quark

相关文章

回顾我的 prompt 能力从小白到熟练的一些重要节点：防杠叠甲： 1. 仅代表我自己的认知，没啥权威性。 2. 认为提示词那么简单至于搞那么复杂么的朋友，你对 3. ...

SAP大中华区总裁黄陈宏：SAP不做大模型

北京：2024年计划供应商品住房600万平方米

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - #680

AI Trends 2024: Reinforcement Learning in the Age of LLMs with Kamyar Azizzadenesheli - #670

AI Trends 2023: Reinforcement Learning - RLHF, Robotic Pre-Training, and Offline RL with Sergey Levine - #612

Reinforcement Learning for Personalization at Spotify with Tony Jebara - #609

Deep Learning, Transformers, and the Consequences of Scale with Oriol Vinyals - #546

The Benefit of Bottlenecks in Evolving Artificial Intelligence with David Ha - #535

Advancing Deep Reinforcement Learning with NetHack, w/ Tim Rocktäschel - #527