优化 Go 中的内存使用：掌握数据结构对齐

心靈之曲

发布时间：2024-11-11 09:30:01

877人浏览过

来源于dev.to

转载

内存优化对于编写高性能软件系统至关重要。当软件可使用的内存量有限时，如果内存未得到有效利用，就会出现许多问题。这就是为什么内存优化对于更好的整体性能至关重要。

go 继承了 c++ 的许多优势特性，但我注意到，很大一部分使用它的人并不了解这种语言的全部功能。原因之一可能是缺乏对它在低层次上如何工作的了解，或者缺乏使用 c 或 c++ 等语言的经验。我提到 c 和 c++ 是因为 go 的基础几乎是建立在 c/c++ 的出色功能之上的。我引用 ken thompson 在 google i/o 2012 上的采访绝非偶然：

对我来说，我对 go 充满热情的原因是因为就在我们开始使用 go 的同时，我阅读（或尝试阅读）c++0x 提议的标准，那是一个我的说服者。

今天，我们将讨论如何优化我们的 go 程序，更具体地说，是如何在 go 中使用结构体。我们先说一下什么是结构体：

结构体是一种用户定义的数据类型，它将不同类型的相关变量分组在一个名称下。

为了充分理解问题所在，我们将提到现代处理器一次不会从内存中读取 1 个字节。 cpu如何获取存储在内存中的数据或指令？

在计算机体系结构中，字是处理器可以在单个操作中处理的数据单元 - 通常是内存的最小可寻址单元。它是固定大小的位组（二进制数字）。处理器的字长决定了其有效处理数据的能力。常见的字长包括 8 位、16 位、32 位和 64 位。一些计算机处理器架构支持半字（即一个字中位数的一半）和双字（即两个连续的字）。

当今最常见的架构是 32 位和 64 位。如果您有 32 位处理器，则意味着它一次可以访问 4 个字节，这意味着字大小为 4 个字节。如果您有 64 位处理器，它一次可以访问 8 个字节，这意味着字大小为 8 个字节。

当我们将数据存储在内存中时，每个32位数据字都有一个唯一的地址，如下所示。

优化 Go 中的内存使用：掌握数据结构对齐

图。 1 ‑ 字可寻址存储器

我们可以读取内存中的数据，并使用加载字（lw）指令将其加载到一个寄存器。

了解了上面的理论之后，我们来看看实践是什么。对于结构数据结构的描述，我将用c语言进行演示。 c 中的结构是一种复合数据类型，允许您将多个变量组合在一起并将它们存储在同一内存块中。正如我们之前所说，cpu 访问数据取决于给定的架构。 c 中的每种数据类型都有对齐要求。

所以我们有以下简单结构：

// structure 1
typedef struct example_1 {
    char c;
    short int s;
} struct1_t;


// structure 2
typedef struct example_2 {
    double d;
    int s;
    char c;
} struct2_t;

现在尝试计算以下结构的大小：

结构 1 的大小 = (char + short int) 的大小 = 1 + 2 = 3.

结构 2 的大小 = (double + int + char) 的大小 = 8 + 4 + 1= 13.

使用 c 程序的实际大小可能会让您大吃一惊。

#include 


// structure 1
typedef struct example_1 {
    char c;
    short int s;
} struct1_t;

// structure 2
typedef struct example_2 {
    double d;
    int s;
    char c;
} struct2_t;

int main()
{
    printf("sizeof(struct1_t) = %lu\n", sizeof(struct1_t));
    printf("sizeof(struct2_t) = %lu\n", sizeof(struct2_t));

    return 0;
}

输出

sizeof(struct1_t) = 4
sizeof(struct2_t) = 16

正如我们所看到的，结构的大小与我们计算的不同。

这是什么原因呢？

c 和 go 采用一种称为“结构填充”的技术来确保数据在内存中适当对齐，由于硬件和架构的限制，这可能会显着影响性能。数据填充和对齐符合系统架构的要求，主要是通过确保数据边界与字长对齐来优化cpu访问时间。

让我们通过一个示例来说明 go 如何处理填充和对齐，请考虑以下结构：

type employee struct {
  isadmin  bool
  id       int64
  age      int32
  salary   float32
}

bool 为 1 个字节，int64 为 8 个字节，int32 为 4 个字节，float32 为 4 个字节 = 17 个字节（总计）。

让我们通过检查编译的 go 程序来验证结构大小：

package main

import (
    "fmt"
    "unsafe"
)

type employee struct {
    isadmin bool
    id      int64
    age     int32
    salary  float32
}

func main() {

    var emp employee

    fmt.printf("size of employee: %d\n", unsafe.sizeof(emp))
}

输出

size of employee: 24

报告的大小是 24 字节，而不是 17。这种差异是由于内存对齐造成的。要了解对齐的工作原理，我们需要检查结构并可视化它占用的内存。

优化 Go 中的内存使用：掌握数据结构对齐

图 2 - 未优化的内存布局

struct employee 将消耗 8*3 = 24 个字节。你现在看到问题了，employee的布局中有很多空洞（那些由对齐规则产生的间隙称为“填充”）。

填充优化和性能影响

了解内存对齐和填充如何影响应用程序的性能至关重要。具体来说，数据对齐会影响访问结构体中的字段所需的 cpu 周期数。这种影响主要来自 cpu 缓存效应，而不是原始时钟周期本身，因为缓存行为很大程度上取决于内存块内的数据局部性和对齐。

NetShop网店系统

NetShop软件特点介绍： 1、使用ASP.Net(c#)2.0、多层结构开发 2、前台设计不采用任何.NET内置控件读取数据，完全标签化模板处理，加快读取速度3、安全的数据添加删除读取操作，利用存储过程模式彻底防制SQL注入式攻击4、前台架构DIV+CSS兼容IE6,IE7,FF等，有利于搜索引挚收录5、后台内置强大的功能，整合多家网店系统的功能，加以优化。6、支持三种类型的数据库：Acces

下载

现代 cpu 将数据从内存提取到更快的中介（称为缓存）中，以固定大小的块（通常为 64 字节）组织。当数据在相同或更少的缓存行中良好对齐和本地化时，由于缓存加载操作减少，cpu 可以更快地访问它。

考虑以下 go 结构来说明较差对齐与最佳对齐：

// poorly aligned struct
type misaligned struct {
    age        uint8  // uses 1 byte, followed by 7 bytes of padding to align the next field
    passportid uint64 // 8-byte aligned uint64 for the passport id
    children   uint16 //2-byte aligned uint16

// well-aligned struct
type aligned struct {
    age        uint8  // starting with 1 byte
    children   uint16 // next, 2 bytes; all these combine into a 3-byte sequence
    passportid uint64 // finally, an 8-byte aligned uint64 without needing additional padding
}

对齐如何影响性能

cpu 以字大小而不是字节大小读取数据。正如我在开头所描述的，64 位系统中的一个字是 8 个字节，而 32 位系统中的一个字是 4 个字节。简而言之，cpu 以字大小的倍数读取地址。为了获取变量 passportid，我们的 cpu 需要两个周期来访问数据，而不是一个。第一个周期将获取内存 0 到 7，后续周期将获取其余内存。这是低效的——我们需要数据结构对齐。通过简单地对齐数据，计算机确保可以在一个cpu周期内检索到var passportid。

优化 Go 中的内存使用：掌握数据结构对齐

图 3 - 比较内存访问效率

padding是实现数据对齐的关键。之所以会发生填充，是因为现代 cpu 经过优化，可以从内存中的对齐地址读取数据。这种对齐方式允许 cpu 在单个操作中读取数据。

优化 Go 中的内存使用：掌握数据结构对齐

图 4 - 简单对齐数据

如果没有填充，数据可能会错位，导致多次内存访问和性能下降。因此，虽然 padding 可能会浪费一些内存，但它可以确保您的程序高效运行。

填充优化策略

对齐结构消耗更少的内存，因为与未对齐结构相比，它具有更好的结构字段顺序。由于填充，两个 13 字节的数据结构分别变为 16 字节和 24 字节。因此，只需重新排序结构字段即可节省额外的内存。

optimizing field order

图 5 - 优化现场秩序

不正确对齐的数据会降低性能，因为 cpu 可能需要多个周期来访问未对齐的字段。相反，正确对齐的数据可以最大限度地减少缓存行负载，这对于性能至关重要，尤其是在内存速度成为瓶颈的系统中。

让我们做一个简单的基准来证明这一点：

var alignedarr []aligned
var misalignedarr []misaligned

func init() {
    const samplesize = 1000
    alignedarr = make([]aligned, samplesize)
    misalignedarr = make([]misaligned, samplesize)
    for i := 0; i < samplesize; i++ {
        alignedarr[i] = aligned{age: uint8(i % 256), siblings: uint16(i), children: uint64(i)}
        misalignedarr[i] = misaligned{age: uint8(i % 256), passportid: uint64(i), children: uint16(i)}
    }
}

func traversealigned() uint16 {
    var arbitrarynum uint16
    for _, item := range alignedarr {
        arbitrarynum += item.siblings
    }
    return arbitrarynum
}

func traversemisaligned() uint16 {
    var arbitrarynum uint16
    for _, item := range misalignedarr {
        arbitrarynum += item.children
    }
    return arbitrarynum
}

func benchmarktraversealigned(b *testing.b) {
    for n := 0; n < b.n; n++ {
        traversealigned()
    }
}

func benchmarktraversemisaligned(b *testing.b) {
    for n := 0; n < b.n; n++ {
        traversemisaligned()
    }
}

输出

go test -bench=.
goos: linux
goarch: amd64
pkg: test-project
cpu: 11th gen intel(r) core(tm) i9-11950h @ 2.60ghz
benchmarktraversealigned-16              3022234               403.7 ns/op
benchmarktraversemisaligned-16           4300167               299.1 ns/op
pass
ok      test-project    3.195s

正如你所看到的，遍历 aligned 确实比遍历 aligned 花费的时间更少。

添加填充是为了确保每个结构体字段根据其需要在内存中正确排列，就像我们之前看到的那样。但是，虽然它可以实现高效访问，但如果字段排序不好，填充也会浪费空间。

了解如何正确对齐结构体字段以最大程度地减少填充导致的内存浪费对于高效内存使用非常重要，尤其是在性能关键型应用程序中。下面，我将提供一个结构对齐不良的示例，然后展示相同结构的优化版本。

在对齐不良的结构中，字段的排序不考虑其大小和对齐要求，这可能导致增加填充和增加内存使用量：

// badly aligned structure
type person struct {
    active   bool      // 1 byte + 7 bytes padding
    salary   float64   // 8 bytes
    age      int32     // 4 bytes + 4 bytes padding
    nickname string    // 16 bytes (string is typically 16 bytes on a 64-bit system)
}

总内存可能是 1 (bool) + 7 (padding) + 8 (float64) + 4 (int32) + 4 (padding) + 16 (string) = 40 字节。

优化的结构按从最大到最小的顺序排列字段，显着减少或消除对额外填充的需要：

// well-aligned structure
type person struct {
    salary   float64   // 8 bytes
    nickname string    // 16 bytes
    age      int32     // 4 bytes
    active   bool      // 1 byte + 3 bytes padding
}

总内存将整齐地包含 8 (float64) + 16 (string) + 4 (int32) + 1 (bool) + 3 (padding) = 32 字节。

我们来证明一下上面的内容：

package main

import (
    "fmt"
    "unsafe"
)

type poorlyalignedperson struct {
    active   bool
    salary   float64
    age      int32
    nickname string
}

type wellalignedperson struct {
    salary   float64
    nickname string
    age      int32
    active   bool
}

func main() {
    poorlyaligned := poorlyalignedperson{}
    wellaligned := wellalignedperson{}

    fmt.printf("size of poorlyalignedperson: %d bytes\n", unsafe.sizeof(poorlyaligned))
    fmt.printf("size of wellalignedperson: %d bytes\n", unsafe.sizeof(wellaligned))
}

输出

Size of PoorlyAlignedPerson: 40 bytes
Size of WellAlignedPerson: 32 bytes

将结构大小从 40 字节减少到 32 字节意味着每个 person 实例的内存使用量减少 20%。这可以在创建或存储许多此类实例的应用程序中节省大量成本，提高缓存效率并有可能减少缓存未命中的数量。

结论

数据对齐是优化内存利用率和增强系统性能的关键因素。通过正确排列结构数据，内存使用不仅变得更加高效，而且 cpu 读取时间也变得更快，从而显着提高整体系统效率。

Golang开发Docker镜像的流程与优化

如何在Linux安装Golang开发环境_Golang Linux安装与版本管理方法

如何在端口80运行Beego应用并使用Apache作为反向代理

如何验证Golang是否安装成功_Golang版本检查与运行测试方法

如何在Golang中实现CI/CD部署策略_Golang流水线自动化部署方法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用Go语言生成由国家缩写和递增数字组成的编号？下一篇：使用 GORM 操作数据库时遇到 “Error 1054 (42S22): Unknown column 'created_at' in 'field list'” 错误，如何解决？

作者最新文章

“DeepSeek 时刻” 一周年

2026-01-21 15:05

Spring Boot 应用间动态协同调用与按需启动实践指南

2026-01-21 15:09

蓝云如何分享文件

2026-01-21 15:21

宇宙猎人归来！《超合金冲击》试玩版上线，双人Roguelike冒险开启

2026-01-21 15:34

国产欧式古风新游《诡秘之主》PV播放破千万！测试招募中

2026-01-21 15:38

PySpark 中实现累积递归计算（如复利式列更新）

2026-01-21 15:45

詹妮弗·黑尔谈《质量效应》同性设定称：这很“加拿大”

2026-01-21 15:54

小红书博主怎么分组推广？分组推广什么意思？

2026-01-21 15:54

标题：如何在 Playwright 测试中为每个测试用例生成独立的随机测试数据

2026-01-21 15:55

PHP 中解析带 @ 符号的 Header 字符串并提取键值对

2026-01-21 16:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档