用socket发GET请求前必须知道:一要调用getaddrinfo解析域名,二要手动构造含Host和Connection头的HTTP请求,三要循环recv并根据Content-Length或连接关闭判断响应结束。

用 socket 发送 GET 请求前必须知道的三件事
直接调用 socket 发起 HTTP GET 不是“写几行代码就行”的事,它绕不开底层细节。你得手动拼 HTTP 请求头、处理域名解析、管理 TCP 连接、读取响应并判断是否接收完整——没有 libcurl 或 httplib 那种自动处理。如果只是想快速发个请求,别手写 socket;如果目标是理解 HTTP over TCP 的通信本质,那才值得往下看。
getaddrinfo 是绕不开的第一步,别硬写 inet_addr
HTTP 请求目标通常是域名(如 "httpbin.org"),而 connect 需要的是 IP 地址和端口。不能用过时的 inet_addr 或 gethostbyname,它们不支持 IPv6 且线程不安全。必须用 getaddrinfo,它返回一个链表,含所有可用地址(IPv4/IPv6)和对应协议信息:
- 传入
hints.ai_family = AF_UNSPEC允许双栈尝试 -
hints.ai_socktype = SOCK_STREAM明确要 TCP -
hints.ai_protocol = IPPROTO_TCP避免系统选错协议 - 记得循环遍历
addrinfo链表,对每个地址socket+connect,直到成功或全部失败
手动构造 HTTP 请求要注意换行、Host 和 Connection
HTTP/1.1 要求必须带 Host 头,否则服务器可能返回 400;Connection: close 能避免连接复用带来的读取不确定性(比如响应体后多出空行或 chunked 编码)。请求字符串必须用 "\r\n" 换行,结尾留两个 \r\n:
GET /get HTTP/1.1\r\nHost: httpbin.org\r\nConnection: close\r\n\r\n
常见错误包括:
立即学习“C++免费学习笔记(深入)”;
- 用
"\n"替代"\r\n"→ 服务器静默拒绝 - 漏掉
Host头 → HTTP 400 Bad Request - 没加
Connection: close→recv可能阻塞,等不到 EOF - GET 路径没 URL 编码 → 遇到空格或中文直接出错
recv 读响应不能只调一次,要循环+检查 Content-Length
服务器响应不是原子到达的。即使小响应,TCP 层也可能拆成多次包。不能只 recv 一次就认为读完了。稳妥做法是:
- 先读到第一个
"\r\n\r\n"分隔符,分离响应头和体 - 从头里解析
Content-Length:字段(注意大小写不敏感、可能有空格) - 若存在且合法,就循环
recv直到累计读够该字节数 - 若不存在(比如
Transfer-Encoding: chunked或 HTTP/1.0),则读到recv返回 0(对端关闭)为止 - 每次
recv都要检查返回值:-1 表示错误,0 表示连接已关,>0 才是实际字节数
忽略这点,大概率拿到截断响应,或者卡死在阻塞读上。
手写 socket 发 GET 看似简单,但每一步都藏着平台差异、协议边界、错误恢复逻辑。真正健壮的实现需要处理 DNS 超时、连接超时、读超时、重定向、HTTPS、代理……这些才是 libcurl 存在的理由。如果你只是调试或教学演示,控制好输入(固定域名/IP、短路径、无重定向),那上面四点就是最常崩的环节。










