某多模态大模型(MLLM)研发团队现招聘一位Python数据外包工程师,需到岗坐班。主要职责是设计和实现TB/PB级别多模态数据处理系统。核心能力要求包括精通Python多进程/多线程并发编程,具备从零到一构建复杂并发任务的经验,能解决GIL限制下的性能瓶颈;深刻理解生产者-消费者模式,设计解耦、可扩展的数据流水线,并有大规模数据处理经验;熟悉调用LLM/MLLM API,特别是OpenAI格式API的实践;以及掌握视频(FFmpeg)和图像(OpenAI)的核心处理技术。加分项包括分布式计算框架(Ray, Dask, Spark)和工作流调度工具(Airflow)经验。本项目为外包合作,寻求长期稳定伙伴,提供纯粹技术环境和顶尖AI模型成长孵化全体验。有意者请将简历发送至指定邮箱,邮件主题注明“[多模态数据工程师申请] + [姓名]”。
🎯 **核心技术要求**:该岗位强调Python并发编程能力,要求应聘者精通多进程/多线程,并有从零构建复杂并发系统的实战经验,能够有效解决GIL带来的性能限制。同时,需要深入理解并能应用生产者-消费者模式来设计可扩展的数据流水线,具备处理TB/PB级别海量数据的架构思维和实践能力。此外,熟悉调用LLM/MLLM API,特别是OpenAI格式的API请求处理,以及掌握FFmpeg和OpenCV等基础数据处理技术也是必备条件。
🌟 **大规模数据处理能力**:岗位核心职责之一是设计和实现TB/PB级别多模态数据处理系统。这意味着应聘者需要具备处理海量数据的架构设计能力,能够构建解耦、可扩展的数据流水线,并能高效地完成数据的清洗、转换和加载工作。对大规模数据架构的深刻理解和熟练应用是成功的关键。
🚀 **LLM/MLLM 应用经验**:对于需要处理多模态数据的岗位,熟悉调用大语言模型(LLM)或多模态大模型(MLLM)的API至关重要。特别是对OpenAI格式API的深入了解和实践经验,包括prompt构建、流式响应处理以及错误处理机制,能够直接提升数据处理的效率和模型应用的准确性。
🔧 **加分项与合作模式**:拥有Ray、Dask或Spark等分布式计算框架经验,以及熟悉Airflow等工作流调度工具,将是重要的加分项。该项目采用外包合作形式,寻求能够长期、稳定合作的技术伙伴,并承诺提供纯粹的技术环境以及参与顶尖AI模型孵化过程的宝贵机会。
WX 多模态大模型( MLLM )研发的团队,招一个 Python 数据外包,需要到岗坐班。负责设计和实现 TB/PB 级别的多模态数据处理系统。
[您需要具备的核心能力]
高性能并发处理:
必须精通 Python多进程/多线程并发编程,有从零到一构建复杂并发任务的实战经验,能够解决 GIL 限制下的性能瓶颈。
大规模数据架构:
深刻理解并能熟练应用生产者-消费者模式来设计解耦、可扩展的数据流水线。具备大规模数据处理的思维和经验,能够驾驭海量数据的清洗、转换与加载。
LLM/MLLM 应用经验:
有调用大语言模型( LLM )或多模态大模型( MLLM ) API 的实际经验。熟悉网络请求,特别是对OpenAI 格式的 API 请求(包括 prompt 构建、流式响应处理、错误处理等)有深入了解和实践。
基础数据技能:
熟悉视频( FFmpeg )、图像( OpenCV )的核心处理技术。
[加分项]
有 Ray 、Dask 或 Spark 等分布式计算框架经验。熟悉工作流调度工具(如 Airflow )。
[合作说明]
岗位性质:本项目为外包合作形式,入职供应商公司。寻求能长期、稳定合作的伙伴。我们提供:纯粹的技术环境以及与顶尖 AI 模型成长孵化过程全体验。
[联系我们]
如果您是我们要找的技术专家,请将您的简历发送至:
2033435907@qq.com
邮件主题请注明:** [多模态数据工程师申请] + [您的姓名] **
有疑问留言必回~ 也可加 Q : 2033435907