帮你找工作的 2025-10-22 12:35 北京

📍 **岗位概览与目标**:本次招聘面向北京地区,阿里巴巴夸克大模型团队正在招募一名强化学习研究型实习生。该职位的核心目标是通过研发新一代强化学习算法,显著提升大模型在多模态理解、工具调用、复杂环境交互以及多智能体协作等关键领域的性能。
🚀 **技术挑战与研究方向**:实习生将有机会参与改进大规模分布式强化学习框架,特别是在万卡集群环境下优化训练效率,以支持大模型与复杂环境和工具的高效交互。研究成果将直接应用于夸克产品生态,打造更智能、更懂用户的服务。
🎓 **任职要求与加分项**:申请者需具备硕士及以上学历,数学、强化学习或自然语言处理等相关专业背景。对深度强化学习算法在大语言模型中的应用有深入理解,熟悉主流深度学习框架(如Transformers、PyTorch、Megatron-LM),并具备扎实的编程实现能力。过往在RLHF、RL reasoning、Agentic RL等方向的项目经验,或在顶级会议发表过相关论文,以及大规模分布式RL训练经验者将获得优先考虑。
帮你找工作的 2025-10-22 12:35 北京
阿里夸克大模型团队在智能科技浪潮中迅速崛起,我们拥有处于上升阶段的核心业务、积累了海量的多模态数据,并配备了充足的GPU资源。在此,你将有机会直面一线的业务挑战,运用你的智慧与才华,致力于研发能为用户带来显著价值的大模型。
坐标:北京
岗位职责
1. 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力;2. 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互;3. 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。岗位要求1. 硕士及以上学历,数学、强化学习、自然语言处理等相关专业;2. 在强化学习方面具有丰富的专业知识,熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识;3. 熟悉大模型相关深度学习框架,如Transformers、PyTorch、Megatron-LM等,有扎实的编程基础和代码实现能力;4. 具备良好的沟通、协作和解决问题的能力,能够与团队成员密切合作,共同解决问题。加分项1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验;2. 在强化学习、大模型训练、多智能体等研究方向在顶级学术会议上发表过论文;3. 有大规模分布式强化学习训练经验或RL框架优化经验。扫描下方小助手的微信,pick 你心仪的岗位~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑