模型部署需实现稳定、可调用、可监控、可更新的服务化闭环,涵盖FastAPI接口封装、Docker容器化、Nginx反代、版本管理、Schema校验、灰度发布及轻量可观测性(日志/指标/告警)。

模型部署不是把训练好的文件拷到服务器上就完事,核心在于让模型稳定、可调用、可监控、能更新。重点是接口封装、服务化、版本管理、资源适配和轻量运维闭环。
用 FastAPI 封装模型为 HTTP 接口
比 Flask 更适合数据服务:自动文档(Swagger)、异步支持、类型校验强、启动快。模型加载放在全局或单例中,避免每次请求都重载。
- 将预处理逻辑(如标准化、编码)和模型预测封装进一个 predict() 函数
- 用 Pydantic 定义请求体,明确输入字段名、类型、默认值和校验规则
- 返回结构统一:包含 status、data、message,便于前端/下游系统解析
- 示例:POST /predict 接收 JSON,返回 {"prediction": 0.82, "class": "fraud"}
容器化部署 + Nginx 反向代理
Docker 是当前最稳妥的环境隔离方案。镜像里只装必要依赖(如 torch==2.0.1 + sklearn==1.3.0),不混用 conda/pip,避免线上环境差异。
- Dockerfile 基于 python:3.9-slim,COPY 模型文件 + 代码 + requirements.txt
- 用 gunicorn + uvicorn 组合管理 FastAPI 进程(gunicorn 负责多 worker,uvicorn 处理 ASGI)
- Nginx 做反向代理:统一入口、负载均衡(多实例时)、超时控制、静态资源托管、HTTPS 终止
- 暴露端口仅限 80/443,模型服务内部走 8000 端口,不直接对外
模型版本 + 输入输出 Schema 管理
模型会迭代,但线上服务不能断。必须让新旧模型共存,并明确每个 API 版本对应的模型和输入格式。
- URL 路径带版本号,如 /v1/predict、/v2/predict,后端路由分发到对应模型实例
- 用 JSON Schema 或 simple-schema 库校验每次请求是否符合当前版本定义(字段缺失、类型错、范围越界等)
- 模型文件按 hash 或 commit id 命名,配合 config.yaml 记录版本、训练时间、负责人、AUC 等元信息
- 灰度发布时,通过 header 或 query 参数指定 model_id,方便定向测试
轻量可观测性:日志 + 指标 + 基础告警
不需搭 Prometheus+Grafana 全家桶,用最少组件看清模型是否活着、跑得慢不慢、结果靠不靠谱。
- 每条请求记录:时间、输入摘要(脱敏)、耗时、状态码、预测结果(采样存储)、异常 traceback
- 用 logging + structlog 输出结构化日志,接入 ELK 或直接写入文件 + logrotate
- 暴露 /metrics 接口:统计 QPS、平均延迟、5xx 比率、输入数据分布偏移(如 age 字段均值突变 >15%)
- 关键指标设钉钉/企微 webhook 告警:连续 5 分钟 500 错误 >3 次,或延迟 P95 >2s
基本上就这些。不复杂但容易忽略的是:模型文件权限、GPU 显存释放、请求体大小限制、超时设置、以及上线前用真实流量做一次全链路压测。部署完成只是开始,持续验证才是保障。










