deepseek开源模型本地部署有四种路径:一、ollama一键部署,自动适配cpu/gpu;二、llama.cpp+gguf量化,纯cpu低内存运行;三、vllm框架,gpu高吞吐api服务;四、docker容器化,保障跨平台一致性。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在本地环境中运行DeepSeek开源模型,但面临硬件适配、环境配置或推理启动失败等问题,则可能是由于依赖版本不匹配、模型权重加载异常或设备后端未正确指定所致。以下是完成DeepSeek开源模型本地部署的多种可行路径:
一、使用Ollama一键部署(支持CPU/GPU自动识别)
Ollama提供预编译二进制与模型仓库集成,可自动检测系统是否启用CUDA或ROCm,并在无GPU时回退至CPU推理。该方式无需手动安装PyTorch或transformers,适合快速验证模型基础能力。
1、访问官网https://ollama.com/download,下载对应操作系统的安装包并完成安装。
2、在终端中执行ollama list确认服务已启动,若提示未运行则执行ollama serve手动启动后台服务。
3、拉取DeepSeek官方支持的模型变体,例如执行ollama pull deepseek-coder:6.7b或ollama pull deepseek-llm:7b。
4、启动交互式会话:输入ollama run deepseek-coder:6.7b,等待模型加载完毕后即可输入提示词。
5、如需强制启用GPU加速,请确保NVIDIA驱动版本≥525且已安装nvidia-container-toolkit,然后在运行前设置export OLLAMA_NUM_GPU=1。
二、基于Transformers + llama.cpp量化推理(纯CPU低内存方案)
llama.cpp通过纯C/C++实现推理,支持GGUF格式量化模型,可在仅4GB内存的x86 CPU设备上运行7B参数模型。该路径绕过Python依赖冲突,适用于老旧笔记本或嵌入式Linux设备。
1、从Hugging Face Hub下载DeepSeek官方发布的GGUF格式模型,例如deepseek-llm-7b-chat.Q4_K_M.gguf,保存至本地目录./models/。
2、克隆llama.cpp仓库:git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make,编译过程将自动生成main可执行文件。
3、执行CPU推理命令:./main -m ./models/deepseek-llm-7b-chat.Q4_K_M.gguf -p "请用中文解释量子叠加态"。
4、如需启用AVX2或NEON指令集加速,编译时添加make LLAMA_AVX=1或make LLAMA_NEON=1参数。
注意:此方式不支持LoRA微调或动态批处理,仅限单次提示词推理。
三、使用vLLM框架部署(GPU高吞吐服务化方案)
vLLM采用PagedAttention内存管理技术,显著提升A10/A100/V100等GPU设备上的并发请求吞吐量,适用于构建API服务或集成至Web UI后端。
1、创建独立conda环境:conda create -n deepseek-vllm python=3.10 && conda activate deepseek-vllm。
2、安装支持CUDA 12.1的vLLM:pip install vllm --extra-index-url https://download.pytorch.org/whl/cu121。
3、从Hugging Face下载原始HF格式模型,例如deepseek-ai/deepseek-llm-7b-base,使用git lfs install && git clone完整获取。
4、启动API服务器:python -m vllm.entrypoints.api_server --model deepseek-ai/deepseek-llm-7b-base --tensor-parallel-size 1 --dtype half。
5、发送HTTP请求测试:curl http://localhost:8000/generate -d '{"prompt":"你好","max_tokens":128}' -H "Content-Type: application/json"。
关键参数说明:--tensor-parallel-size需根据GPU数量设置,单卡设为1;--dtype half可降低显存占用但需GPU支持FP16。
四、Docker容器化部署(跨平台一致性保障方案)
Docker封装完整运行时依赖与模型权重路径映射,避免宿主机Python环境污染,特别适用于CI/CD流水线或Kubernetes集群调度。
1、编写Dockerfile,基础镜像选用nvidia/cuda:12.1.1-runtime-ubuntu22.04,安装python3.10、pip及vLLM依赖。
2、在Dockerfile中添加COPY ./models /app/models,确保模型权重与容器内路径一致。
3、构建镜像:docker build -t deepseek-vllm .,构建过程将自动缓存conda环境层。
4、运行容器并挂载GPU:docker run --gpus all -p 8000:8000 -v $(pwd)/models:/app/models deepseek-vllm。
5、进入容器验证GPU可见性:docker exec -it <container_id> nvidia-smi</container_id>,输出应显示对应GPU型号及驱动版本。
必须确保宿主机已安装nvidia-docker2并重启docker daemon,否则--gpus参数无效。











