可直接用VS Code Remote-SSH远程连接云端GPU实例进行开发与训练。需配置SSH密钥登录,验证nvidia-smi、CUDA及PyTorch/TensorFlow的GPU可用性,推荐使用Dev Container保障环境一致性,并支持远程调试与Jupyter Notebook。
可以直接在云端gpu实例上用vs code远程开发,关键不是“装vs code”,而是把本地vs code作为客户端,连接到运行在gpu服务器上的vs code server(或通过ssh remote插件),真正训练跑在gpu环境里。
用 VS Code Remote-SSH 连接GPU实例
这是最常用、最稳定的方式。前提是你的GPU云实例已开通SSH访问(如AWS EC2、阿里云ECS、Google Cloud VM等),且已配置好密钥登录。
- 在本地VS Code中安装官方插件 Remote - SSH
- 配置SSH目标:点击左下角远程连接图标 → “Add New SSH Host” → 输入类似
ubuntu@xx.xx.xx.xx(替换为你的实例IP和用户名) - 选择私钥文件(如
my-key.pem),VS Code会自动上传并配置免密登录 - 连接成功后,VS Code界面右下角显示远程状态,所有文件浏览、终端、调试都在GPU服务器上运行
确保GPU驱动和CUDA环境就绪
远程连上后,别急着写代码——先验证GPU是否可用,否则训练会默默退化成CPU跑。
- 打开远程终端(
Ctrl+Shift+`),运行nvidia-smi看GPU显存和驱动状态 - 运行
nvcc --version检查CUDA编译器;若报错,需手动安装对应版本的CUDA Toolkit(参考NVIDIA官网) - Python环境中确认PyTorch/TensorFlow能调用GPU:
PyTorch示例:python -c "import torch; print(torch.cuda.is_available(), torch.cuda.device_count())"
用Dev Container提升环境一致性(可选但推荐)
如果项目需要特定Python版本、CUDA版本、依赖库组合,建议用Docker + Dev Container,避免“在我机器上能跑”的问题。
- 在远程项目根目录新建
.devcontainer/devcontainer.json,指定基础镜像(如nvidia/cuda:12.1.1-devel-ubuntu22.04) - 在
devcontainer.json中配置安装conda、torch、datasets等,或挂载requirements.txt - 点击命令面板(
Ctrl+Shift+P)→ “Reopen in Container”,VS Code会拉取镜像、启动容器、自动装好环境
调试与日志:别只靠print
GPU训练常耗时较长,本地VS Code的调试能力依然可用,但要注意路径和权限。
- 设断点后按
F5启动调试,VS Code会自动映射远程路径(需确保launch.json中"justMyCode": true且路径正确) - 训练日志建议输出到文件(如
logs/train.log),再用VS Code内置文件监视器或tail -f实时查看 - Jupyter Notebook支持:在远程环境下安装
jupyter和ipykernel,VS Code可直接打开.ipynb并选择远程Python内核
基本上就这些。不用在本地模拟GPU,也不用折腾VNC桌面,VS Code Remote让云端GPU训练变得和本地开发几乎一样顺手——核心是连得稳、环境对、看得清。










