0

0

优化 Go 中的内存使用:掌握数据结构对齐

心靈之曲

心靈之曲

发布时间:2024-11-11 09:30:01

|

877人浏览过

|

来源于dev.to

转载

内存优化对于编写高性能软件系统至关重要。当软件可使用的内存量有限时,如果内存未得到有效利用,就会出现许多问题。这就是为什么内存优化对于更好的整体性能至关重要。

go 继承了 c++ 的许多优势特性,但我注意到,很大一部分使用它的人并不了解这种语言的全部功能。原因之一可能是缺乏对它在低层次上如何工作的了解,或者缺乏使用 c 或 c++ 等语言的经验。我提到 c 和 c++ 是因为 go 的基础几乎是建立在 c/c++ 的出色功能之上的。我引用 ken thompson 在 google i/o 2012 上的采访绝非偶然:

对我来说,我对 go 充满热情的原因是因为就在我们开始使用 go 的同时,我阅读(或尝试阅读)c++0x 提议的标准,那是一个我的说服者。

今天,我们将讨论如何优化我们的 go 程序,更具体地说,是如何在 go 中使用结构体。我们先说一下什么是结构体:

结构体是一种用户定义的数据类型,它将不同类型的相关变量分组在一个名称下。

为了充分理解问题所在,我们将提到现代处理器一次不会从内存中读取 1 个字节。 cpu如何获取存储在内存中的数据或指令?

在计算机体系结构中,字是处理器可以在单个操作中处理的数据单元 - 通常是内存的最小可寻址单元。它是固定大小的位组(二进制数字)。处理器的字长决定了其有效处理数据的能力。常见的字长包括 8 位、16 位、32 位和 64 位。一些计算机处理器架构支持半字(即一个字中位数的一半)和双字(即两个连续的字)。

当今最常见的架构是 32 位和 64 位。如果您有 32 位处理器,则意味着它一次可以访问 4 个字节,这意味着字大小为 4 个字节。如果您有 64 位处理器,它一次可以访问 8 个字节,这意味着字大小为 8 个字节。

当我们将数据存储在内存中时,每个32位数据字都有一个唯一的地址,如下所示。

优化 Go 中的内存使用:掌握数据结构对齐

图。 1 ‑ 字可寻址存储器

我们可以读取内存中的数据,并使用加载字(lw)指令将其加载到一个寄存器。

了解了上面的理论之后,我们来看看实践是什么。对于结构数据结构的描述,我将用c语言进行演示。 c 中的结构是一种复合数据类型,允许您将多个变量组合在一起并将它们存储在同一内存块中。正如我们之前所说,cpu 访问数据取决于给定的架构。 c 中的每种数据类型都有对齐要求。

所以我们有以下简单结构:

// structure 1
typedef struct example_1 {
    char c;
    short int s;
} struct1_t;


// structure 2
typedef struct example_2 {
    double d;
    int s;
    char c;
} struct2_t;

现在尝试计算以下结构的大小:

结构 1 的大小 = (char + short int) 的大小 = 1 + 2 = 3.

结构 2 的大小 = (double + int + char) 的大小 = 8 + 4 + 1= 13.

使用 c 程序的实际大小可能会让您大吃一惊。

#include 


// structure 1
typedef struct example_1 {
    char c;
    short int s;
} struct1_t;

// structure 2
typedef struct example_2 {
    double d;
    int s;
    char c;
} struct2_t;

int main()
{
    printf("sizeof(struct1_t) = %lu\n", sizeof(struct1_t));
    printf("sizeof(struct2_t) = %lu\n", sizeof(struct2_t));

    return 0;
}

输出

sizeof(struct1_t) = 4
sizeof(struct2_t) = 16

正如我们所看到的,结构的大小与我们计算的不同。

这是什么原因呢?

c 和 go 采用一种称为“结构填充”的技术来确保数据在内存中适当对齐,由于硬件和架构的限制,这可能会显着影响性能。数据填充和对齐符合系统架构的要求,主要是通过确保数据边界与字长对齐来优化cpu访问时间。

让我们通过一个示例来说明 go 如何处理填充和对齐,请考虑以下结构:

type employee struct {
  isadmin  bool
  id       int64
  age      int32
  salary   float32
}

bool 为 1 个字节,int64 为 8 个字节,int32 为 4 个字节,float32 为 4 个字节 = 17 个字节(总计)。

让我们通过检查编译的 go 程序来验证结构大小:

package main

import (
    "fmt"
    "unsafe"
)

type employee struct {
    isadmin bool
    id      int64
    age     int32
    salary  float32
}

func main() {

    var emp employee

    fmt.printf("size of employee: %d\n", unsafe.sizeof(emp))
}

输出

size of employee: 24

报告的大小是 24 字节,而不是 17。这种差异是由于内存对齐造成的。要了解对齐的工作原理,我们需要检查结构并可视化它占用的内存。

优化 Go 中的内存使用:掌握数据结构对齐

图 2 - 未优化的内存布局

struct employee 将消耗 8*3 = 24 个字节。你现在看到问题了,employee的布局中有很多空洞(那些由对齐规则产生的间隙称为“填充”)。

填充优化和性能影响

了解内存对齐和填充如何影响应用程序的性能至关重要。具体来说,数据对齐会影响访问结构体中的字段所需的 cpu 周期数。这种影响主要来自 cpu 缓存效应,而不是原始时钟周期本身,因为缓存行为很大程度上取决于内存块内的数据局部性和对齐。

NetShop网店系统
NetShop网店系统

NetShop软件特点介绍: 1、使用ASP.Net(c#)2.0、多层结构开发 2、前台设计不采用任何.NET内置控件读取数据,完全标签化模板处理,加快读取速度3、安全的数据添加删除读取操作,利用存储过程模式彻底防制SQL注入式攻击4、前台架构DIV+CSS兼容IE6,IE7,FF等,有利于搜索引挚收录5、后台内置强大的功能,整合多家网店系统的功能,加以优化。6、支持三种类型的数据库:Acces

下载

现代 cpu 将数据从内存提取到更快的中介(称为缓存)中,以固定大小的块(通常为 64 字节)组织。当数据在相同或更少的缓存行中良好对齐和本地化时,由于缓存加载操作减少,cpu 可以更快地访问它。

考虑以下 go 结构来说明较差对齐与最佳对齐:

// poorly aligned struct
type misaligned struct {
    age        uint8  // uses 1 byte, followed by 7 bytes of padding to align the next field
    passportid uint64 // 8-byte aligned uint64 for the passport id
    children   uint16 //2-byte aligned uint16

// well-aligned struct
type aligned struct {
    age        uint8  // starting with 1 byte
    children   uint16 // next, 2 bytes; all these combine into a 3-byte sequence
    passportid uint64 // finally, an 8-byte aligned uint64 without needing additional padding
}

对齐如何影响性能

cpu 以字大小而不是字节大小读取数据。正如我在开头所描述的,64 位系统中的一个字是 8 个字节,而 32 位系统中的一个字是 4 个字节。简而言之,cpu 以字大小的倍数读取地址。为了获取变量 passportid,我们的 cpu 需要两个周期来访问数据,而不是一个。第一个周期将获取内存 0 到 7,后续周期将获取其余内存。这是低效的——我们需要数据结构对齐。通过简单地对齐数据,计算机确保可以在一个cpu周期内检索到var passportid。

优化 Go 中的内存使用:掌握数据结构对齐

图 3 - 比较内存访问效率

padding是实现数据对齐的关键。之所以会发生填充,是因为现代 cpu 经过优化,可以从内存中的对齐地址读取数据。这种对齐方式允许 cpu 在单个操作中读取数据。

优化 Go 中的内存使用:掌握数据结构对齐

图 4 - 简单对齐数据

如果没有填充,数据可能会错位,导致多次内存访问和性能下降。因此,虽然 padding 可能会浪费一些内存,但它可以确保您的程序高效运行。

填充优化策略

对齐结构消耗更少的内存,因为与未对齐结构相比,它具有更好的结构字段顺序。由于填充,两个 13 字节的数据结构分别变为 16 字节和 24 字节。因此,只需重新排序结构字段即可节省额外的内存。

optimizing field order

图 5 - 优化现场秩序

不正确对齐的数据会降低性能,因为 cpu 可能需要多个周期来访问未对齐的字段。相反,正确对齐的数据可以最大限度地减少缓存行负载,这对于性能至关重要,尤其是在内存速度成为瓶颈的系统中。

让我们做一个简单的基准来证明这一点:

var alignedarr []aligned
var misalignedarr []misaligned

func init() {
    const samplesize = 1000
    alignedarr = make([]aligned, samplesize)
    misalignedarr = make([]misaligned, samplesize)
    for i := 0; i < samplesize; i++ {
        alignedarr[i] = aligned{age: uint8(i % 256), siblings: uint16(i), children: uint64(i)}
        misalignedarr[i] = misaligned{age: uint8(i % 256), passportid: uint64(i), children: uint16(i)}
    }
}

func traversealigned() uint16 {
    var arbitrarynum uint16
    for _, item := range alignedarr {
        arbitrarynum += item.siblings
    }
    return arbitrarynum
}

func traversemisaligned() uint16 {
    var arbitrarynum uint16
    for _, item := range misalignedarr {
        arbitrarynum += item.children
    }
    return arbitrarynum
}

func benchmarktraversealigned(b *testing.b) {
    for n := 0; n < b.n; n++ {
        traversealigned()
    }
}

func benchmarktraversemisaligned(b *testing.b) {
    for n := 0; n < b.n; n++ {
        traversemisaligned()
    }
}

输出

go test -bench=.
goos: linux
goarch: amd64
pkg: test-project
cpu: 11th gen intel(r) core(tm) i9-11950h @ 2.60ghz
benchmarktraversealigned-16              3022234               403.7 ns/op
benchmarktraversemisaligned-16           4300167               299.1 ns/op
pass
ok      test-project    3.195s

正如你所看到的,遍历 aligned 确实比遍历 aligned 花费的时间更少。

添加填充是为了确保每个结构体字段根据其需要在内存中正确排列,就像我们之前看到的那样。但是,虽然它可以实现高效访问,但如果字段排序不好,填充也会浪费空间。

了解如何正确对齐结构体字段以最大程度地减少填充导致的内存浪费对于高效内存使用非常重要,尤其是在性能关键型应用程序中。下面,我将提供一个结构对齐不良的示例,然后展示相同结构的优化版本。

在对齐不良的结构中,字段的排序不考虑其大小和对齐要求,这可能导致增加填充和增加内存使用量:

// badly aligned structure
type person struct {
    active   bool      // 1 byte + 7 bytes padding
    salary   float64   // 8 bytes
    age      int32     // 4 bytes + 4 bytes padding
    nickname string    // 16 bytes (string is typically 16 bytes on a 64-bit system)
}

总内存可能是 1 (bool) + 7 (padding) + 8 (float64) + 4 (int32) + 4 (padding) + 16 (string) = 40 字节。

优化的结构按从最大到最小的顺序排列字段,显着减少或消除对额外填充的需要:

// well-aligned structure
type person struct {
    salary   float64   // 8 bytes
    nickname string    // 16 bytes
    age      int32     // 4 bytes
    active   bool      // 1 byte + 3 bytes padding
}

总内存将整齐地包含 8 (float64) + 16 (string) + 4 (int32) + 1 (bool) + 3 (padding) = 32 字节。

我们来证明一下上面的内容:

package main

import (
    "fmt"
    "unsafe"
)

type poorlyalignedperson struct {
    active   bool
    salary   float64
    age      int32
    nickname string
}

type wellalignedperson struct {
    salary   float64
    nickname string
    age      int32
    active   bool
}

func main() {
    poorlyaligned := poorlyalignedperson{}
    wellaligned := wellalignedperson{}

    fmt.printf("size of poorlyalignedperson: %d bytes\n", unsafe.sizeof(poorlyaligned))
    fmt.printf("size of wellalignedperson: %d bytes\n", unsafe.sizeof(wellaligned))
}

输出

Size of PoorlyAlignedPerson: 40 bytes
Size of WellAlignedPerson: 32 bytes

将结构大小从 40 字节减少到 32 字节意味着每个 person 实例的内存使用量减少 20%。这可以在创建或存储许多此类实例的应用程序中节省大量成本,提高缓存效率并有可能减少缓存未命中的数量。

结论

数据对齐是优化内存利用率和增强系统性能的关键因素。通过正确排列结构数据,内存使用不仅变得更加高效,而且 cpu 读取时间也变得更快,从而显着提高整体系统效率。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

397

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

618

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

354

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

258

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

600

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

526

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

641

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

601

2023.09.22

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.6万人学习

Git 教程
Git 教程

共21课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号