Go语言中uint64的存储与变长编码解析

DDD

发布时间：2025-10-17 11:51:05

758人浏览过

来源于php中文网

原创

Go语言中uint64的存储与变长编码解析

go语言中，uint64类型在内存中始终占用8字节存储空间。然而，在使用binary.putuvarint进行变长编码时，一个uint64值最多可能占用10字节。这并非类型存储的矛盾，而是变长编码为了保持兼容性和设计简洁性所做的权衡，通过使用最高有效位作为延续位来指示后续字节。

在Go语言中，基本数据类型的大小是明确且固定的。根据Go语言规范，uint64类型被定义为64位无符号整数，其在内存中的标准存储大小为8字节。这与处理器架构和内存对齐无关，是语言层面的保证。

例如，Go语言的类型大小保证如下：

类型	字节大小
byte, uint8, int8	1
uint16, int16	2
uint32, int32, float32	4
uint64, int64, float64, complex64	8
complex128	16

这意味着无论uint64变量存储的值是0、100还是math.MaxUint64，它在程序内存中分配的存储空间都固定是8字节。

变长编码（Varint）与binary.PutUvarint

然而，当涉及到数据的序列化或网络传输时，我们常常会遇到变长编码（Varint）的概念。Varint是一种紧凑的表示数字的方式，对于较小的数字，它会占用较少的字节，而对于较大的数字，它会占用更多的字节。Go语言标准库中的encoding/binary包提供了PutUvarint函数，用于将uint64值编码为Varint格式。

立即学习“go语言免费学习笔记（深入）”；

binary.PutUvarint函数可以将一个uint64值编码到字节切片中，并返回写入的字节数。令人困惑的是，对于一个uint64值，该函数最多可能写入10个字节，而不是通常认为的8字节。

为什么Uvarint会占用更多字节？

这种差异源于Varint编码的设计原则。Varint编码通常使用每个字节的最高有效位（MSB）作为“延续位”：如果MSB为1，表示这个数字还有后续字节；如果MSB为0，表示这是数字的最后一个字节。每个字节的其余7位用于存储实际的数值数据。

对于一个64位的uint64值，它最多需要64位来表示。如果每个字节提供7位有效数据，那么理论上ceil(64 / 7) = 10个字节是足够的。这意味着最坏情况下，一个uint64值需要10个字节来编码。

Summarizer

基于 AI 的文本段落摘要生成器

下载

Go语言的binary包中的设计说明对此有详细解释：

// 设计说明：
// 64位值最多需要10个字节。编码可以更紧凑：
// 一个完整的64位值需要一个额外的字节来保存第63位。
// 相反，前一个字节的MSB可以用来保存第63位，
// 因为我们知道不会有超过64位。
// 这是一个微不足道的改进，可以将最大编码长度减少到9个字节。
// 然而，它会打破MSB总是“延续位”的不变性，
// 从而使格式与更大数字（例如128位）的Varint编码不兼容。

这段设计说明揭示了关键点：

最高10字节： 为了表示64位数据，并且每个字节只贡献7位有效数据（因为1位是延续位），因此需要10个字节。
设计权衡： 理论上，可以通过特殊处理（例如，让最后一个字节的MSB不作为延续位，而是作为第63位数据）将最大编码长度减少到9字节。
兼容性与不变性： 然而，Go语言的binary包选择不这样做，是为了保持一个重要的不变性：MSB始终作为延续位。这种设计使得Varint格式能够兼容更大数字的编码（如未来的128位或更多位），而不会引入特殊的边缘情况处理，从而简化了编码和解码逻辑。

示例代码

以下代码演示了uint64在内存中的大小以及binary.PutUvarint的编码行为：

package main

import (
    "encoding/binary"
    "fmt"
    "unsafe"
)

func main() {
    var val uint64 = 12345678901234567890 // 一个较大的uint64值
    var smallVal uint64 = 123             // 一个较小的uint64值

    // 1. 检查uint64在内存中的大小
    fmt.Printf("uint64类型在内存中占用 %d 字节。\n", unsafe.Sizeof(val))

    // 2. 使用binary.PutUvarint进行编码
    buf := make([]byte, binary.MaxVarintLen64) // MaxVarintLen64 为 10

    // 编码大值
    nBig := binary.PutUvarint(buf, val)
    fmt.Printf("值 %d (大值) 编码后占用 %d 字节: %x\n", val, nBig, buf[:nBig])

    // 编码小值
    nSmall := binary.PutUvarint(buf, smallVal)
    fmt.Printf("值 %d (小值) 编码后占用 %d 字节: %x\n", smallVal, nSmall, buf[:nSmall])

    // 编码最大uint64值
    maxUint64 := ^uint64(0) // math.MaxUint64
    nMax := binary.PutUvarint(buf, maxUint64)
    fmt.Printf("值 %d (MaxUint64) 编码后占用 %d 字节: %x\n", maxUint64, nMax, buf[:nMax])
}

运行上述代码，你会观察到：

uint64类型在内存中占用 8 字节。
较大的uint64值和MaxUint64值编码后会占用10个字节。
较小的uint64值编码后会占用较少的字节（例如1或2字节）。

总结

理解uint64的存储和Varint编码之间的区别至关重要：

内存存储： 在Go程序运行时的内存中，uint64类型变量始终占用固定的8字节空间。这是类型本身的特性。
序列化编码： 当使用binary.PutUvarint等函数进行数据序列化时，采用的是变长编码（Varint）。这种编码方式旨在节省存储空间，对于小数字占用字节少，对于大数字则占用字节多。
编码长度： uint64的Varint编码最大可达10字节，这是因为Varint编码每个字节的最高位用作延续位，牺牲了一位数据位，并且为了保持编码格式的通用性和兼容性，Go语言选择了这种设计。

因此，在处理uint64数据时，需要区分其在内存中的静态大小和在序列化（如文件存储、网络传输）时可能采用的动态编码大小。

Go 中切片遍历时修改元素值为何不生效？——理解值拷贝与指针引用的本质差异

Go 中修改全局变量切片元素属性不生效的原因与解决方案

如何在Golang中利用反射修改结构体字段名 Go语言JSON序列化别名

如何在Golang中利用Encoding/Gob传输私有数据 Go语言Gob序列化协议

Go 语言中区分转义换行符 \n 与真实换行符的正确处理方法