需先满足硬件与系统要求、安装推理框架与依赖、获取转换模型权重、启动本地推理服务、配置客户端访问接口五步。windows需cuda 12.1+及nvidia驱动≥535.00,mac需m1/m2/m3芯片及macos≥13.5,python限3.10/3.11;推荐llama.cpp(mac)或vllm(windows);模型需从hugging face下载并转换为gguf(mac)或直用hf路径(windows);服务启动后通过openai兼容客户端调用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在本地计算机上运行DeepSeek模型,但尚未配置好运行环境,则可能是由于缺少必要的依赖库、硬件资源不足或模型文件加载失败。以下是完成DeepSeek模型本地部署的具体步骤:
一、确认硬件与系统要求
DeepSeek模型对计算资源有明确要求,尤其是运行较大参数量版本(如DeepSeek-V2、DeepSeek-Coder-33B)时,需确保本地设备满足最低运行条件。GPU显存不足将导致模型加载中断,CPU模式则仅适用于极小规模量化版本。
1、Windows用户需安装NVIDIA驱动程序(版本不低于535.00),并确认已启用CUDA 12.1或12.2支持。
2、Mac用户需使用搭载M1 Pro/Max/Ultra或M2/M3系列芯片的设备,且macOS版本不低于13.5。
3、检查可用磁盘空间:DeepSeek-Coder-7B-Quantized需至少8GB空闲空间,DeepSeek-V2-Full需预留45GB以上。
4、验证Python版本:必须为Python 3.10或3.11,不兼容3.12及以上版本。
二、安装推理框架与依赖
DeepSeek模型依赖特定推理后端进行高效加载与执行,推荐使用llama.cpp(CPU/Metal)或vLLM(GPU)作为主运行时。不同平台适配策略不同,需按系统类型选择对应方案。
1、Windows用户执行:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121,随后运行pip install vllm==0.6.3.post1。
2、Mac用户执行:brew install rust,再运行git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make clean && make LLAMA_METAL=1。
3、统一安装Hugging Face生态工具:pip install transformers accelerate sentencepiece tiktoken。
4、验证CUDA可用性(仅Windows GPU用户):python -c "import torch; print(torch.cuda.is_available(), torch.cuda.device_count())",输出应为True 1或更高。
三、获取并转换模型权重
DeepSeek官方未直接提供GGUF格式模型,需从Hugging Face Hub下载原始权重,并转换为本地推理框架可识别的格式。转换过程需保留注意力层结构完整性,避免精度损失。
1、访问Hugging Face DeepSeek仓库页面,定位至deepseek-ai/deepseek-coder-7b-base或deepseek-ai/deepseek-v2,点击“Files and versions”标签页。
2、Windows用户使用git lfs install && git clone https://huggingface.co/deepseek-ai/deepseek-coder-7b-base下载全量权重。
3、Mac用户进入llama.cpp目录后执行:python convert-hf-to-gguf.py ../deepseek-coder-7b-base --outfile deepseek-coder-7b.Q4_K_M.gguf。
4、Windows用户使用vLLM时无需转换,直接指定--model deepseek-ai/deepseek-coder-7b-base参数即可启动服务。
四、启动本地推理服务
完成模型加载后,需通过HTTP API或命令行交互方式启用推理能力。服务端口冲突、上下文长度超限或批处理尺寸设置不当均会导致请求失败。
1、Windows+vLLM方式:执行vllm serve --model deepseek-ai/deepseek-coder-7b-base --tensor-parallel-size 1 --port 8080。
2、Mac+llama.cpp方式:执行./main -m deepseek-coder-7b.Q4_K_M.gguf -p "Write a Python function to merge two sorted lists" -n 256 -t 4 -c 2048。
3、验证API服务:在新终端中运行curl -X POST http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{"model":"deepseek-coder-7b-base","prompt":"def fib","max_tokens":50}'。
4、若返回JSON含"choices":[...]字段且无error键,则表示服务已就绪。
五、配置客户端访问接口
本地部署完成后,需通过兼容OpenAI API规范的客户端发起调用。直接使用curl易出错,推荐采用标准化Python脚本封装请求逻辑,规避认证头缺失或数据格式错误问题。
1、创建client.py文件,写入以下内容:import openai; client = openai.OpenAI(base_url="http://localhost:8080/v1", api_key="none")。
2、添加调用语句:response = client.completions.create(model="deepseek-coder-7b-base", prompt="def quicksort", max_tokens=100)。
3、运行脚本前确保vLLM服务仍在前台运行,且终端未被关闭或中断。
4、观察输出中response.choices[0].text是否返回有效代码片段,若为空字符串或报错ConnectionError,需检查端口占用情况。











