Hugging Face 下载模型踩坑记：从符号链接到网络错误

刚开始用 huggingface_hub 下载模型时，我以为一切都会很简单。一行代码，模型到手。但很快，一连串的报错和“意外”行为，让我不得不停下来，搞清楚它背后到底是怎么运作的。

这篇文章，就是我解决这些问题的心路历程。没有高深理论，只是一些朴素的踩坑和思考。

第一个坑：禁用了符号链接，为什么还有符号链接？

我的旅程从一个疑惑开始。

我想把模型下载到一个指定目录，并且不希望有任何符号链接（symlink），因为在某些环境下处理它会很麻烦。于是我写下了这样的代码：

snapshot_download(    'Systran/faster-whisper-tiny',    cache_dir='./models',    local_dir_use_symlinks=False # 我明确禁用了它)

运行后，我兴冲冲地打开 ./models 文件夹，结果傻眼了。里面还是有一堆符号链接文件，指向一些奇怪的 blobs 目录。

这让我非常困惑。是 Bug 吗？

研究后才发现，我完全搞错了 local_dir_use_symlinks 参数的作用。Hugging Face 的缓存机制本身就是基于符号链接构建的，这是一个核心设计，无法禁用。

它的缓存目录结构大概是这样：

models/└── models--Systran--faster-whisper-tiny/    ├── blobs/      <-- 存放真实文件的地方    ├── snapshots/    │   └── a1b2c3d4.../  <-- 某个版本快照    │       ├── config.json  -> ../../blobs/...    │       └── model.bin    -> ../../blobs/...    ...

snapshots 目录里的文件，本质上都是指向 blobs 文件夹里真实文件的快捷方式。这样做的好处是极大地节省了空间，同一个文件无论被多少个模型版本引用，硬盘上只存一份。

而 local_dir_use_symlinks=False 这个参数，只有在你同时指定 local_dir 时才会生效。

它的真正意思是：“请把模型下载到 cache_dir，然后，额外地，在 local_dir 这个新目录里，给我创建一个不含任何符号链接的、由真实文件组成的完整副本。”

所以，正确的做法是这样：

snapshot_download(    repo_id='Systran/faster-whisper-tiny',    cache_dir='./cache',             # 缓存，让它自己管理符号链接    local_dir='./faster-whisper-tiny-real-files', # 我最终想要的干净目录    local_dir_use_symlinks=False     # 告诉它往 local_dir 里复制真实文件)

这样一来，./cache 目录里是高效的缓存结构，而 ./faster-whisper-tiny-real-files 目录里就是我想要的、干干净净的、可以随便拷贝的模型文件了。

第二个思考：在 Windows 上，符号链接可靠吗？

搞懂了上面的机制后，我又想，在某些场景下，用符号链接节省空间也挺香的。但在 Windows 上，这个功能好像一直有点“玄学”。它始终可用吗？

答案是：不一定，关键看权限。

在以前，Windows 创建符号链接需要管理员权限。如果你用普通用户身份打开一个 CMD 或 PowerShell，尝试创建符号链接会直接失败。

但现在情况好多了。从 Windows 10 开始，微软推出了“开发者模式”。

只要在 设置 -> 隐私和安全性 -> 开发者选项（Win10 在“更新和安全”里）中，打开“开发人员模式”，任何用户就都能自由地创建符号链接了，不再需要“以管理员身份运行”。

这是一个一劳永逸的解决方法。对于开发者来说，强烈建议打开它。

huggingface-hub 库也很聪明。当你使用默认的 local_dir_use_symlinks="auto" 时，它会先尝试创建符号链接。如果因为权限不够而失败，它会自动降级，改为复制文件。这样既保证了高效，又保证了程序不会因为权限问题而崩溃。

第三个坎：恼人的 `local_files_only` 错误

文件系统的问题搞定了，我开始在我的项目里集成模型加载功能。很快，新的错误来了：

RuntimeError: ...Cannot find an appropriate cached snapshot folder... and outgoing traffic has been disabled. To enable repo look-ups and downloads online, pass 'local_files_only=False' as input.

这个错误信息很直白。它说：“我被要求在离线模式下（local_files_only=True）工作，但我在本地找不到我需要的模型文件。”

这通常发生在几种情况下：

第一次运行程序

缓存目录不完整

程序找错了地方

~/.cache/huggingface/hub

根本原因在于，程序加载模型的代码被设置成了强制离线。比如，在 transformers 库中，加载模型的代码可能是这样的：

# 某处的代码model = AutoModel.from_pretrained("model_name", local_files_only=True)

local_files_only=True 就像一个开关，它告诉程序：“不许上网，只能用本地的。”

解决方法很简单：先让它上一次网，把东西买齐了再说。

找到加载模型的代码，把 local_files_only=True 改成 local_files_only=False（或者直接删掉，因为 False 是默认值），然后运行一次程序。它会连接网络，把完整的模型下载到缓存里。

下载成功后，如果你希望程序后续能在离线环境下稳定运行，可以再把这个参数改回 True。

最后一个挑战：网络连接失败

解决了离线问题后，我遇到了它的“孪生兄弟”：

An error happened while trying to locate the files on the Hub and we cannot find the appropriate snapshot folder on the local disk. Please check your internet connection...

这个错误更让人头大。它告诉你一个“双重打击”：

试过上网了

An error happened while trying to locate the files on the Hub

回头找本地缓存

we cannot find the appropriate snapshot folder

两边都落空，程序只能报错。

这清晰地指向了网络问题。可能是电脑没联网，也可能是防火墙或代理挡住了去路。

对于国内用户来说，一个常见且有效的原因是访问 Hugging Face Hub 主站（huggingface.co）国内不可访问(原因你懂的)。

非常有用的技巧是，通过环境变量配置 Hugging Face 使用国内镜像。在运行脚本前，先在终端设置一下：

# Windows (CMD)set HF_ENDPOINT=https://hf-mirror.com# Linux / macOS / PowerShell$env:HF_ENDPOINT="https://hf-mirror.com"

设置这个环境变量后，huggingface_hub 会自动从这个镜像地址下载，速度和稳定性都会好很多。解决了网络问题，再运行程序，模型就能顺利下载了。

总结一下

回头看，这一路踩坑的过程，其实就是建立一个清晰心智模型的过程。Hugging Face 的下载逻辑可以简化为这样一张流程图：

需要加载模型时，先看是不是被强制离线 (local_files_only=True)？

是

否

尝试连接网络（Hub 主站或镜像）。

成功

失败

检查本地缓存目录。

找到完整模型

找不到

一旦理解了这个流程，再遇到报错，就不会再感到无从下手了。希望我的这点经验，也能对你有所帮助。

第一个坑：禁用了符号链接，为什么还有符号链接？

第二个思考：在 Windows 上，符号链接可靠吗？

第三个坎：恼人的 `local_files_only` 错误

最后一个挑战：网络连接失败

总结一下

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

第一个坑：禁用了符号链接，为什么还有符号链接？

第二个思考：在 Windows 上，符号链接可靠吗？

第三个坎：恼人的 local_files_only 错误

最后一个挑战：网络连接失败

总结一下

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

第三个坎：恼人的 `local_files_only` 错误