关于 DeepSeek 本地部署

February 3, 2025

Llm, Deepseek, Ollama

如何在本地部署 DeepSeek 最新的模型？其实 DeepSeek 官方有相关指南¹，但是更方便的部署方式是采用 ollama²，互联网上大部分教程都是采用此方案³⁴，本文也不例外。

Ollama 方式部署（NVIDIA平台） #

Ollama 是2023年6月开始的项目，使用 Go 语言写的工具，用于在本地一条命令安装、启动和管理大型语言模型，支持 Llama 3、Gemma、Mistral 等大模型，适用于 Windows、macOS、Linux 操作系统。目前在 Github 上 star 数 118k，可见其流行程度。

根据对应的操作系统，按照官网指示，下载安装 Ollama 到本地电脑。安装完毕后根据自己电脑配置，选择合适的模型下载：

1.5B version (smallest):
ollama pull deepseek-r1:1.5b

8B version:
ollama pull deepseek-r1:8b

14B version:
ollama pull deepseek-r1:14b

32B version:
ollama pull deepseek-r1:32b

70B version (biggest/smartest):
ollama pull deepseek-r1:70b

qwq
ollama pull qwq

这里有 Ollama 官方提供的DeepSeek 系列模型页面⁵，如果网络顺利的话，应该等待下载完毕就可与 LLM 进行交互。为了交互的方便，可以使用ChatBox，各个平台都有APP，也可以使用 Web 版，进行后端 API 的设置即可。

注意在 Linux 平台上，如果采用一键安装方式，会默认配置好 systemd 服务文件 /etc/systemd/system/ollama.service，自动启动 ollama serve，可以通过设置环境变量 OLLAMA_HOST 监听其他端口，更新后重启该服务即可。

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target

经过实测，4090 24GB 显存最多可以流畅运行 Ollama 提供的 deepseek-r1:32b 模型。我在本地下载了各个版本的模型，大小如下：

$ ollama list
NAME               ID              SIZE      MODIFIED
deepseek-r1:70b    0c1615a8ca32    42 GB     16 minutes ago
deepseek-r1:32b    38056bbcbb2d    19 GB     2 hours ago
deepseek-r1:14b    ea35dfe18182    9.0 GB    3 hours ago
deepseek-r1:8b     28f8fd6cdc67    4.9 GB    4 hours ago

国产平台 #

NVIDIA 平台的部署是简单易行的，如何国产显卡平台上部署呢？考虑到未来可能有这个需求，先收集一下相关资料。

硅基流动宣布上线DeepSeek-V3/R1，联手华为云、DeepSeek打造 #

新闻链接

硅基流动
在DeepSeek-R1、DeepSeek-V3 开源并引发广泛关注后，硅基流动宣布大模型云服务平台 SiliconCloud 首发上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1。
基于华为云昇腾云服务
根据华为官方消息，Atlas（昇腾） 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用，但关键的内存则使用了LPDDR4X 24 GB，总带宽204.8 GB/s via
评价：邀请送余额吸引了不少新人，目前没有尝试，看起来国产廉价平台+先进开源模型很有前景。

Gitee AI 联合沐曦首发全套 DeepSeek R1 千问蒸馏模型，全免费体验 #

链接

Gitee AI 平台
国产显卡：沐曦曦云。曦云系列通用 GPU 产品（包括 C550、C500、C500X、C290、C280、N260 等型号）采用完全自主研发的 GPU IP，拥有完整的知识产权，并具备强大的多精度混合计算能力及高带宽显存支持。同时，沐曦产品搭载先进的时空互联技术和全球兼容的 MXMACA 软件栈，可广泛应用于智能、通用计算和数据处理等场景。
在本次部署适配工作中，得益于沐曦曦云良好的 CUDA 兼容性，同时得到沐曦的算力供应商超讯通信的鼎力支持，最终实现了模型的快速部署、稳定调用。
评价：目前部署的还是蒸馏的小型模型，不清楚 671b 版本为什么没有搞定。

参考链接 #

DeepSeek V3 本地部署指南：从入门到精通 ↩︎
https://github.com/ollama/ollama Get up and running with Llama 3.3, DeepSeek-R1, Phi-4, Gemma 2, and other large language models. ↩︎
A Letter from PJ - 試著在自己電腦上運作 Deepseek R1 的心得 ↩︎
https://www.reddit.com/r/macapps/comments/1i6h705/got_deepseek_r1_running_locally_full_setup_guide/ ↩︎
https://ollama.com/library/deepseek-r1:1.5b ↩︎