ai咨询互联 10月16日 01:36
本地电脑即可部署ChatGPT,Karpathy开源nanochat项目
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

前特斯拉AI总监Karpathy近期推出了开源项目nanochat,该项目仅用约8000行代码,能在4小时内、花费不到100美元的成本,在普通家用电脑上训练出一个小型ChatGPT克隆体。nanochat是一个全栈式小型语言模型训练框架,复现了ChatGPT的全流程,包括使用Rust重写的训练级tokenizer、在FineWeb语料上预训练GPT-style Transformer、中期训练对齐对话格式、以及在多项基准测试上进行监督微调。该项目还支持KV-Cache引擎、轻量级Python沙箱进行工具调用,并提供CLI与WebUI双接口。nanochat适用于教育实验、研究验证、私有化部署及边缘实验等场景。

🌟 **nanochat:低成本复现ChatGPT** Karpathy推出的nanochat项目,以极低的成本(约100美元)和时间(约4小时),利用约8000行代码,使得用户可以在家用电脑上训练出功能类似ChatGPT的小型语言模型。这为个人和小型团队提供了前所未有的便捷性,打破了部署大型语言模型的门槛。

🛠️ **全栈式训练与技术细节** 该项目涵盖了从数据预处理到模型部署的全流程。它采用了Rust重写的训练级tokenizer,并在FineWeb语料上预训练了GPT-style Transformer。通过中期训练(SmolTalk子集)和监督微调(SFT)在多项基准测试上提升模型能力,甚至可选强化学习(GRPO)来进一步优化对话效果。这些技术细节确保了模型在有限资源下也能达到较好的性能。

🚀 **灵活部署与广泛应用** anochat不仅能通过命令行(CLI)进行交互,还提供了ChatGPT风格的WebUI。其KV-Cache引擎支持流式解码,内嵌的Python沙箱允许执行工具调用。这使得nanochat非常适合作为教育领域的LLM入门项目、研究新算法的实验平台,以及需要数据隐私保护的私有化部署和边缘计算场景。

💡 **性能与局限性** 根据Karpathy的说法,depth=30的模型在MMLU等基准测试上的表现接近GPT-3 Small。然而,当前项目仍处于实验阶段,强化学习部分稳定性有待提升,且仅支持英文,多语言支持需要额外训练。未来Karpathy计划引入LoRA、MoE等扩展,进一步增强nanochat的功能。

原创 技术Z先生 2025-10-15 23:50 广东

本地版Chatgpt来了,普通家用电脑就能部署

* 戳上方蓝字“AI资讯互联”关注我

大家好,我是技术Z先生,一名热爱分享的AI程序员!

就在前天,前特斯拉AI总监Karpathy推出的开源项目“nanochat”一夜间爆火,该项目仅用约8000行代码便复现了 ChatGPT 的全流程,用户只需要有一台GPU、再花上 4 小时做下训练,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。全场费用下来成本不到 100 美元!

项目地址https://github.com/karpathy/nanochat

该项目只用了不到 2 天时间,就已经快达到 20K 星标了,这也是博主见过的近几年涨粉最快的开源项目了!

接下来,我将和大家详细聊聊这玩意是什么?以及如何进行本地化部署!

项目速览nanochat 是 Karpathy 继 nanoGPT 之后推出的全栈式小型语言模型训练框架,目标是在 4 小时内、以约 100 美元的成本,复现一个可对话的 ChatGPT 克隆体。

维度

指标

代码行数

≈ 8 000

训练时长

4 h(100 )

模型规模

561 M 参数(depth=30)

训练硬件

8×H100 GPU

最终交付

CLI + ChatGPT-style WebUI

都包含了哪些技术路径?分词器用 Rust 重写训练级 tokenizer,压缩率 4.8 char/token,兼容 tiktoken 推理。

预训练在 FineWeb 语料上预训练 GPT-style Transformer(MQA + RoPE + ReLU²),同步输出 CORE 分数。

中期训练(Midtrain)使用 SmolTalk 的对话、选择题、工具调用子集继续训练,对齐对话格式。

监督微调(SFT)在 ARC-E/C、MMLU、GSM8K、HumanEval 上微调,提升问答、数学、代码能力。

强化学习(RL,可选)采用 GRPO 算法在 GSM8K 上进一步对齐,显存占用低于 PPO。

推理与交互• KV-Cache 引擎,支持流式解码 • 内嵌轻量级 Python 沙箱,可执行工具调用 • CLI 与 WebUI 双接口

性能阶梯

训练成本

训练时长

CORE 指标

能力描述

100 $

4 h

~GPT-2 级

闲聊、写诗、简单问答

300 $

12 h

>GPT-2

逻辑推理、短篇故事

1 000 $

41.6 h

接近 GPT-3 125 M

数学、代码、多选题

🌈

“depth=30 的模型在 MMLU 上 40 分、ARC-Easy 70 分、GSM8K 20 分,与 GPT-3 Small 的 FLOPs 相当。”

🌈

—— Karpathy 推文

快速开始1、克隆 github 仓库git clone https://github.com/karpathy/nanochat.git克隆完成后,切换到nanochat 目录

cd nanochat2、启动云 GPU(示例:RunPod)执行以下命令启动


runpodctl create pod --gpu 8xH100 --image ubuntu:22.043、一键训练使用以下命令即可开始一键训练了

python base_train.py --depth 30 --budget 1004、启动 WebUI使用以下命令启动 web 界面

python serve.py --checkpoint out/model.ckpt接下来,浏览器打开 `http://:5000 就可以开始对话了!

文件结构(核心)├── train_tokenizer.rs    # Rust 分词器

├── base_train.py         # 预训练 + SFT

├── rl_train.py           # GRPO 强化学习

├── serve.py              # 推理服务器

├── static/               # WebUI 前端

└── report_card.md        # 自动生成的游戏化报告

这个小模型都有哪些适用场景?还可以做些私有化模型语料库,例如:博主最近开发的改写 Agent 就是用的自训练小模型,经过了大量 AI 浓度为 0 的文章进行词元拆解训练!

局限与展望• 当前 RL 阶段仍处实验性,稳定性待提升。
• 仅支持英文,多语言 tokenizer 需自行训练。
• Karpathy 计划将 nanochat 作为 LLM101n 顶点项目,未来或引入 LoRA、MoE 等扩展。

🌈

“这不是最优雅的实现,但一定是最易 fork 的基线。”

end

今天的分享就到这里了,大家快去体验下吧!喜欢的小伙伴请点击下方免费的👍点赞 📤分享 ❤️推荐

关注我,实时掌握最新一手AI资讯,助你轻松应对未来挑战!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

nanochat ChatGPT 开源 本地部署 AI Karpathy 语言模型 LLM nanochat ChatGPT Open Source Local Deployment AI Karpathy Language Model LLM
相关文章