Tinker让微调大模型不再难

新智元报道

编辑：定慧好困

【新智元导读】微调大模型不再是少数人的专利！Thinking Machines Lab推出首款产品「Tinker」，一个专为语言模型微调而生的API。它让开发者能彻底摆脱底层架构的束缚，仅用简单的Python代码便可专注于算法与数据创新。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

Thinking Machines Lab终于首发第一款产品，Tinker！

不是模型、也不是APP，而是一个专为语言模型微调而生的API。

翻译过来就是，Tinker可以让几乎所有人，都能轻松地微调出属于自己的模型！

对于广大研究者和开发者而言，Tinker的诞生就是为了解决一个核心痛点：

当我们想要在SOTA模型上进行实验和定制时，往往会被复杂的分布式训练基础设施搞得焦头烂额。

而Tinker的解决方案是，你只管专注于算法和数据，他们来处理所有棘手的后台工作。

不仅如此，从一个小模型切换到一个庞然大物，操作竟简单到只需在你的Python代码中更改一个字符串。

OpenAI前CTO搞的这款产品，确实还是有点东西的。

正如CEO Murati所说：「Tinker为研究人员带来了前沿工具，为编写实验和训练流水线提供了清晰的抽象接口，同时处理了分布式训练的复杂性。它为创新研究、定制模型和构建可靠的性能基准提供了可能。」

对此，大佬卡帕西也在第一时间发推盛赞，认为Tinker会改变过去模型微调的范式：

这意味着即使是像你我这样的普通用户，也能介入模型层面，而不仅仅停留在输入层面，修改few-shot！

上下滑动查看

与更常见的「上传你的数据，我们对你的LLM进行后训练」的现有范式相比，卡帕西认为Tinker是一个更巧妙地将后训练复杂性「切分」的方式。

卡帕西认为微调是更好的后训练范式。

few-shot提示（就是把很多示例都塞到prompt里）在上下文长度、提示设计、推理开销上有很多限制。

但微调一个较小模型，把它训练成做一类专门任务的模型，在很多场景下可以取得更好或者更稳定的表现，并且推理速度更快、资源消耗更低。

理论上来说，Thinking Machines Lab的首款产品，不仅是针对开源模型，而且更是给所有人下放了「权力」！

比如过去模型是开源了，但是大参数的模型，比如671B的DeepSeek，没有卡无法推理；

小模型比如2B、7B的模型，初始性能又不好用。

Tinker出现后，我们都有了能力按照自己的需求和想法，可以用自己的数据来微调一个专门模型啦！

人人都可「微调」模型Tinker只需要用非常简单的Python代码即可完成「想法表达」。

作为一个运行在Thinking Machines Lab内部集群和训练基础设施上的托管服务，它为你包办了任务调度、资源分配和故障恢复等所有繁琐事务。

用户则无需担心基础设施的管理，可以立即启动或大或小的计算任务。

Tinker的核心功能包括：

提供如forward_backward和sample等Python原生操作，让用户能构建自定义的微调或强化学习（RL）算法。

支持从小到大的各类开放权重模型，包括像Qwen-235B-A22B这样的专家混合（Mixture-of-Experts）架构。

集成了基于LoRA的微调方法，允许多个训练任务共享计算资源池，从而优化成本效益。

提供一个名为Tinker Cookbook的开源配套库，其中包含了多种后训练方法的实现。

Thinking Machines Lab采用了LoRA技术，从而能够在多个训练任务间共享同一个计算资源池，以降低成本。

Tinker API提供了如forward_backward和sample这样的底层操作原语，可用于实现大多数常见的后训练方法。

通过Tinker，可以微调各种规模的开放权重模型，包括像Qwen-235B-A22B这样的大型专家混合模型。

从小模型切换到大模型，仅需修改Python代码中的一个字符串即可，操作非常简单。

Tinker目前支持Qwen系列和Llama系列的模型。

尽管能够直接微调模型，要取得理想成果，仍需将众多细节处理到位。

因此，他们发布了一个名为Tinker Cookbook的开源库，其中包含了基于Tinker API运行的、实现了各种先进后训练方法的代码。

目前，Tinker处于免费私测阶段，未来几周内将推出基于使用量的定价模型。

想要使用Tinker，需要申请加入用户白名单，申请地址：https://form.typeform.com/to/jH2xNWIg

以开发者为中心的训练APITinker并非又一个拖拽式界面或黑箱微调服务。

相反，它提供了一个底层但用户友好的API，让研究人员能够通过标准的Python代码，对损失函数、训练循环和数据工作流进行精细控制。

实际的训练工作负载运行在Thinking Machines的托管基础设施上，从而实现了快速的分布式执行，并免去了管理GPU集群带来的种种麻烦。

加州大学伯克利分校计算机科学博士生Tyler Griggs在测试该API后写道：许多强化学习微调服务都面向企业，不允许用户替换训练逻辑。

而有了Tinker，你可以完全不用操心计算资源，只需专注于「摆弄」环境、算法和数据。

上下滑动查看

普林斯顿、斯坦福已率先用上了
在公开发布前，Tinker已在多家研究实验室投入使用。

早期采用者包括来自伯克利、普林斯顿、斯坦福以及Redwood Research的团队，他们各自将该API应用于独特的模型训练问题：

普林斯顿的Goedel团队使用Tinker和LoRA微调用于形式化定理证明的大语言模型，仅用20%的数据便达到了与Goedel-Prover V2等全参数监督式微调（SFT）模型相当的性能。他们在Tinker上训练的模型，在MiniF2F基准测试中实现了88.1%的pass@32成功率，通过自我纠正后更是达到90.4%，超越了规模更大的闭源模型。

斯坦福大学的Rotskoff实验室使用Tinker训练化学推理模型。在LLaMA 70B模型基础上进行强化学习后，从IUPAC命名转换为化学式的准确率从15%跃升至50%。研究人员称，如果没有强大的基础设施支持，这种幅度的提升在过去是无法想象的。

伯克利的SkyRL团队运行了自定义的多智能体强化学习循环，其中涉及异步的离策略（off-policy）训练和多轮工具使用——而Tinker的灵活性让这一切成为可能。

Redwood Research使用Tinker在长上下文AI控制任务上对Qwen3-32B模型进行强化学习训练。研究员Eric Gan表示，如果没有Tinker，他很可能不会启动这个项目，并指出扩展多节点训练一直是一大障碍。

这些案例充分展示了Tinker的多功能性——无论是经典的监督式微调，还是覆盖截然不同领域的高度实验性强化学习流水线，它都能提供支持。

参考资料：

https://thinkingmachines.ai/blog/announcing-tinker/

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签