一行命令即可本地运行deepseek-r1推理服务:ollama支持ollama run deepseek-r1:7b一键启动,vllm则需python -m vllm.entrypoints.api_server部署,调用curl或openai兼容接口即可。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不用复杂配置,一行命令就能在本地跑起 DeepSeek-R1 推理服务——这已经可以实现,但前提是环境兼容、模型可得、工具链到位。
确认硬件与基础依赖
DeepSeek-R1(尤其是 671B 或 32B 等大版本)对显存要求高。消费级显卡建议至少 24GB VRAM(如 RTX 4090),若用量化版(如 GGUF 格式),RTX 3090/4080 也能勉强运行 7B~14B 版本。
必须提前装好:
- Python 3.10+(推荐 3.11)
- PyTorch(CUDA 版,务必匹配系统 CUDA 版本)
- Git 和 curl(用于拉取代码与模型)
用 Ollama 一键启动(最简方式)
Ollama 封装了模型下载、量化、服务启动全流程,适合快速验证:
ollama run deepseek-r1:7b —— 自动拉取 GGUF 量化版并启动 API 服务(默认 http://127.0.0.1:11434)
支持的 tag 包括:7b、14b、32b-q4_k_m 等,具体见 Ollama 官方库。注意:原生 671B 暂未上架,需手动部署。
用 vLLM 手动部署(高性能生产场景)
追求低延迟、高吞吐时,vLLM 是更优选择。以 14B 模型为例:
python -m vllm.entrypoints.api_server --model deepseek-ai/deepseek-r1-14b --tensor-parallel-size 1 --dtype bfloat16 --host 0.0.0.0 --port 8000
关键说明:
-
--model值为 HuggingFace 模型 ID,需提前huggingface-cli login -
--tensor-parallel-size根据 GPU 数量设(单卡填 1) - 首次运行会自动下载权重,约 28GB(14B FP16),确保磁盘空间充足
调用你的本地 R1 服务
启动成功后,用 curl 测试:
curl -X POST http://localhost:8000/generate -H "Content-Type: application/json" -d '{"prompt":"你好,请用中文简单介绍你自己","max_tokens":64}'
返回 JSON 中的 text 字段即为模型输出。前端或 LangChain 可直接对接该 OpenAI 兼容接口。











