新智元报道
新智元报道
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
Thinking Machines Lab终于首发第一款产品,Tinker!不是模型、也不是APP,而是一个专为语言模型微调而生的API。翻译过来就是,Tinker可以让几乎所有人,都能轻松地微调出属于自己的模型!对于广大研究者和开发者而言,Tinker的诞生就是为了解决一个核心痛点:而Tinker的解决方案是,你只管专注于算法和数据,他们来处理所有棘手的后台工作。
不仅如此,从一个小模型切换到一个庞然大物,操作竟简单到只需在你的Python代码中更改一个字符串。OpenAI前CTO搞的这款产品,确实还是有点东西的。正如CEO Murati所说:「Tinker为研究人员带来了前沿工具,为编写实验和训练流水线提供了清晰的抽象接口,同时处理了分布式训练的复杂性。它为创新研究、定制模型和构建可靠的性能基准提供了可能。」对此,大佬卡帕西也在第一时间发推盛赞,认为Tinker会改变过去模型微调的范式:
与更常见的「上传你的数据,我们对你的LLM进行后训练」的现有范式相比,卡帕西认为Tinker是一个更巧妙地将后训练复杂性「切分」的方式。卡帕西认为微调是更好的后训练范式。few-shot提示(就是把很多示例都塞到prompt里)在上下文长度、提示设计、推理开销上有很多限制。但微调一个较小模型,把它训练成做一类专门任务的模型,在很多场景下可以取得更好或者更稳定的表现,并且推理速度更快、资源消耗更低。理论上来说,Thinking Machines Lab的首款产品,不仅是针对开源模型,而且更是给所有人下放了「权力」!比如过去模型是开源了,但是大参数的模型,比如671B的DeepSeek,没有卡无法推理;小模型比如2B、7B的模型,初始性能又不好用。Tinker出现后,我们都有了能力按照自己的需求和想法,可以用自己的数据来微调一个专门模型啦!
人人都可「微调」模型Tinker只需要用非常简单的Python代码即可完成「想法表达」。作为一个运行在Thinking Machines Lab内部集群和训练基础设施上的托管服务,它为你包办了任务调度、资源分配和故障恢复等所有繁琐事务。用户则无需担心基础设施的管理,可以立即启动或大或小的计算任务。Tinker的核心功能包括:提供如forward_backward和sample等Python原生操作,让用户能构建自定义的微调或强化学习(RL)算法。支持从小到大的各类开放权重模型,包括像Qwen-235B-A22B这样的专家混合(Mixture-of-Experts)架构。集成了基于LoRA的微调方法,允许多个训练任务共享计算资源池,从而优化成本效益。提供一个名为Tinker Cookbook的开源配套库,其中包含了多种后训练方法的实现。Thinking Machines Lab采用了LoRA技术,从而能够在多个训练任务间共享同一个计算资源池,以降低成本。Tinker API提供了如forward_backward和sample这样的底层操作原语,可用于实现大多数常见的后训练方法。通过Tinker,可以微调各种规模的开放权重模型,包括像Qwen-235B-A22B这样的大型专家混合模型。从小模型切换到大模型,仅需修改Python代码中的一个字符串即可,操作非常简单。Tinker目前支持Qwen系列和Llama系列的模型。尽管能够直接微调模型,要取得理想成果,仍需将众多细节处理到位。因此,他们发布了一个名为Tinker Cookbook的开源库,其中包含了基于Tinker API运行的、实现了各种先进后训练方法的代码。目前,Tinker处于免费私测阶段,未来几周内将推出基于使用量的定价模型。想要使用Tinker,需要申请加入用户白名单,申请地址:https://form.typeform.com/to/jH2xNWIg
以开发者为中心的训练APITinker并非又一个拖拽式界面或黑箱微调服务。相反,它提供了一个底层但用户友好的API,让研究人员能够通过标准的Python代码,对损失函数、训练循环和数据工作流进行精细控制。实际的训练工作负载运行在Thinking Machines的托管基础设施上,从而实现了快速的分布式执行,并免去了管理GPU集群带来的种种麻烦。加州大学伯克利分校计算机科学博士生Tyler Griggs在测试该API后写道:许多强化学习微调服务都面向企业,不允许用户替换训练逻辑。而有了Tinker,你可以完全不用操心计算资源,只需专注于「摆弄」环境、算法和数据。
普林斯顿、斯坦福已率先用上了
在公开发布前,Tinker已在多家研究实验室投入使用。早期采用者包括来自伯克利、普林斯顿、斯坦福以及Redwood Research的团队,他们各自将该API应用于独特的模型训练问题:普林斯顿的Goedel团队使用Tinker和LoRA微调用于形式化定理证明的大语言模型,仅用20%的数据便达到了与Goedel-Prover V2等全参数监督式微调(SFT)模型相当的性能。他们在Tinker上训练的模型,在MiniF2F基准测试中实现了88.1%的pass@32成功率,通过自我纠正后更是达到90.4%,超越了规模更大的闭源模型。斯坦福大学的Rotskoff实验室使用Tinker训练化学推理模型。在LLaMA 70B模型基础上进行强化学习后,从IUPAC命名转换为化学式的准确率从15%跃升至50%。研究人员称,如果没有强大的基础设施支持,这种幅度的提升在过去是无法想象的。伯克利的SkyRL团队运行了自定义的多智能体强化学习循环,其中涉及异步的离策略(off-policy)训练和多轮工具使用——而Tinker的灵活性让这一切成为可能。Redwood Research使用Tinker在长上下文AI控制任务上对Qwen3-32B模型进行强化学习训练。研究员Eric Gan表示,如果没有Tinker,他很可能不会启动这个项目,并指出扩展多节点训练一直是一大障碍。这些案例充分展示了Tinker的多功能性——无论是经典的监督式微调,还是覆盖截然不同领域的高度实验性强化学习流水线,它都能提供支持。
文章原文
