需明确模型部署方式、接口协议与请求结构:一、调用智谱ai官方api;二、本地部署chatglm-4-9b;三、用fastchat托管;四、基于langchain集成对话链。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在应用程序中集成人工智能对话能力,使用智谱AI推出的GLM-4模型或其开源变体ChatGLM系列进行本地或API调用,则需明确模型部署方式、接口协议与请求结构。以下是实现该目标的具体路径:
一、通过智谱AI官方API调用GLM-4
智谱AI提供托管式GLM-4服务,开发者无需自行部署模型,只需申请API密钥并构造符合规范的HTTP请求即可获得高质量文本响应。该方式适用于无GPU资源、追求快速上线及稳定服务的场景。
1、访问智谱AI开放平台注册账号并创建应用,获取API Key与Secret Key。
2、使用OAuth 2.0流程换取access_token,请求地址为https://www.php.cn/link/4002628957f70084918b0d02535b3bcaapi/paas/v4/oauth/token,以client_id和client_secret作为认证凭据。
3、向对话接口https://www.php.cn/link/4002628957f70084918b0d02535b3bcaapi/paas/v4/chat/completions发送POST请求,请求体中包含model字段设为glm-4,messages为标准对话数组,如[{"role": "user", "content": "你好"}]。
4、在请求头中设置Authorization: Bearer {access_token},并确保Content-Type为application/json。
二、本地部署ChatGLM-4-9B并调用
ChatGLM-4-9B是智谱AI发布的开源轻量级版本,支持在消费级显卡(如RTX 3090/4090)上以量化方式运行。本地部署可保障数据不出域,并允许深度定制推理逻辑与系统提示词。
1、从GitHub仓库https://github.com/THUDM/ChatGLM-4克隆代码,确认环境满足Python ≥ 3.10、PyTorch ≥ 2.1.0及CUDA 12.x要求。
2、执行pip install -r requirements.txt安装依赖,特别注意需安装transformers==4.40.0与accelerate==0.27.2以兼容模型架构。
3、下载已发布的chatglm4-9b-int4量化权重(约5.2GB),存放于./models/chatglm4-9b-int4目录下。
4、运行python cli_demo.py启动命令行交互界面,或修改web_demo.py启用Gradio Web UI,此时服务默认监听http://127.0.0.1:7860。
三、使用FastChat框架托管ChatGLM模型
FastChat提供统一模型服务层,支持多模型并发、负载均衡与OpenAI兼容API。将ChatGLM-4-9B接入FastChat后,前端可复用标准OpenAI SDK,降低迁移成本。
1、安装FastChat:pip install "fschat[model_worker,webui]",确保bitsandbytes与flash-attn已正确编译。
2、启动控制器:python -m fastchat.controller --host 127.0.0.1 --port 21001。
3、启动模型工作节点:python -m fastchat.model.worker --controller http://127.0.0.1:21001 --model-path ./models/chatglm4-9b-int4 --model-name chatglm4-9b --no-graceful-exit。
4、启动Web UI:python -m fastchat.webui --controller http://127.0.0.1:21001,或调用兼容OpenAI格式的API端点http://127.0.0.1:8000/v1/chat/completions,其中model参数设为chatglm4-9b。
四、基于LangChain集成ChatGLM对话链
LangChain提供抽象化提示工程、记忆管理与工具调用能力,适配ChatGLM后可构建具备上下文感知、外部知识检索与函数调用能力的智能体。
1、安装langchain与对应扩展:pip install langchain langchain-community transformers accelerate bitsandbytes。
2、定义HuggingFacePipeline实例,加载chatglm4-9b-int4模型并配置pipeline_kwargs={"max_new_tokens": 512, "do_sample": True, "temperature": 0.8}。
3、构造ConversationBufferMemory实例,将历史消息以human/ai角色对形式存入memory_key为history的缓冲区。
4、组合LLMChain,使用预置CONVERSATION_PROMPT模板,其中系统提示部分须明确指定你是一个基于ChatGLM-4-9B的中文对话助手,以激活模型的指令遵循能力。










