DeepSeek模型本地部署指南（Windows/Mac）

月夜之吻

发布时间：2026-02-15 19:46:03

297人浏览过

来源于php中文网

原创

需先满足硬件与系统要求、安装推理框架与依赖、获取转换模型权重、启动本地推理服务、配置客户端访问接口五步。windows需cuda 12.1+及nvidia驱动≥535.00，mac需m1/m2/m3芯片及macos≥13.5，python限3.10/3.11；推荐llama.cpp（mac）或vllm（windows）；模型需从hugging face下载并转换为gguf（mac）或直用hf路径（windows）；服务启动后通过openai兼容客户端调用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

deepseek模型本地部署指南（windows/mac）

如果您希望在本地计算机上运行DeepSeek模型，但尚未配置好运行环境，则可能是由于缺少必要的依赖库、硬件资源不足或模型文件加载失败。以下是完成DeepSeek模型本地部署的具体步骤：

一、确认硬件与系统要求

DeepSeek模型对计算资源有明确要求，尤其是运行较大参数量版本（如DeepSeek-V2、DeepSeek-Coder-33B）时，需确保本地设备满足最低运行条件。GPU显存不足将导致模型加载中断，CPU模式则仅适用于极小规模量化版本。

1、Windows用户需安装NVIDIA驱动程序（版本不低于535.00），并确认已启用CUDA 12.1或12.2支持。

2、Mac用户需使用搭载M1 Pro/Max/Ultra或M2/M3系列芯片的设备，且macOS版本不低于13.5。

3、检查可用磁盘空间：DeepSeek-Coder-7B-Quantized需至少8GB空闲空间，DeepSeek-V2-Full需预留45GB以上。

4、验证Python版本：必须为Python 3.10或3.11，不兼容3.12及以上版本。

二、安装推理框架与依赖

DeepSeek模型依赖特定推理后端进行高效加载与执行，推荐使用llama.cpp（CPU/Metal）或vLLM（GPU）作为主运行时。不同平台适配策略不同，需按系统类型选择对应方案。

1、Windows用户执行：pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121，随后运行pip install vllm==0.6.3.post1。

2、Mac用户执行：brew install rust，再运行git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make clean && make LLAMA_METAL=1。

3、统一安装Hugging Face生态工具：pip install transformers accelerate sentencepiece tiktoken。

4、验证CUDA可用性（仅Windows GPU用户）：python -c "import torch; print(torch.cuda.is_available(), torch.cuda.device_count())"，输出应为True 1或更高。

三、获取并转换模型权重

DeepSeek官方未直接提供GGUF格式模型，需从Hugging Face Hub下载原始权重，并转换为本地推理框架可识别的格式。转换过程需保留注意力层结构完整性，避免精度损失。

1、访问Hugging Face DeepSeek仓库页面，定位至deepseek-ai/deepseek-coder-7b-base或deepseek-ai/deepseek-v2，点击“Files and versions”标签页。

依图语音开放平台

下载

2、Windows用户使用git lfs install && git clone https://huggingface.co/deepseek-ai/deepseek-coder-7b-base下载全量权重。

3、Mac用户进入llama.cpp目录后执行：python convert-hf-to-gguf.py ../deepseek-coder-7b-base --outfile deepseek-coder-7b.Q4_K_M.gguf。

4、Windows用户使用vLLM时无需转换，直接指定--model deepseek-ai/deepseek-coder-7b-base参数即可启动服务。

四、启动本地推理服务

完成模型加载后，需通过HTTP API或命令行交互方式启用推理能力。服务端口冲突、上下文长度超限或批处理尺寸设置不当均会导致请求失败。

1、Windows+vLLM方式：执行vllm serve --model deepseek-ai/deepseek-coder-7b-base --tensor-parallel-size 1 --port 8080。

2、Mac+llama.cpp方式：执行./main -m deepseek-coder-7b.Q4_K_M.gguf -p "Write a Python function to merge two sorted lists" -n 256 -t 4 -c 2048。

3、验证API服务：在新终端中运行curl -X POST http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{"model":"deepseek-coder-7b-base","prompt":"def fib","max_tokens":50}'。

4、若返回JSON含"choices":[...]字段且无error键，则表示服务已就绪。