在Go语言中实现最小二乘法线性回归：原理与代码实践

心靈之曲

发布时间：2025-10-09 12:12:12

564人浏览过

来源于php中文网

原创

在Go语言中实现最小二乘法线性回归：原理与代码实践

本文旨在为Go语言开发者提供一个关于如何实现最小二乘法（LSE）线性回归的详细教程。我们将探讨LSE的基本数学原理，并通过一个完整的Go代码示例，演示如何计算数据集的斜率和截距，从而构建一个简单而有效的线性回归模型，无需依赖外部库。

线性回归与最小二乘法基础

线性回归是一种统计方法，用于建立一个自变量（或多个自变量）与因变量之间的线性关系模型。其目标是找到一条最佳拟合直线，能够最好地描述数据点的趋势。最小二乘法（least squared error, lse）是确定这条最佳拟合直线最常用的方法之一。

LSE的核心思想是最小化所有数据点到拟合直线的垂直距离的平方和。对于一条直线方程 y = mx + b，其中 m 是斜率，b 是截距，LSE通过以下公式计算 m 和 b：

假设我们有 N 个数据点 (x_i, y_i)：

斜率 (m)： m = (N * Σ(x_i * y_i) - Σx_i * Σy_i) / (N * Σ(x_i²) - (Σx_i)²)
截距 (b)： b = (Σy_i - m * Σx_i) / N

其中，Σ 表示求和。

Go语言实现：核心结构

在Go语言中实现最小二乘法线性回归，我们首先需要定义一个结构体来表示数据点，然后编写一个函数来执行计算。

立即学习“go语言免费学习笔记（深入）”；

1. 数据点结构体

为了方便处理二维数据点，我们定义一个 Point 结构体：

倍塔塞司

AI职业规划、AI职业测评、定制测评、AI工具等多样化职业类AI服务。

下载

package main

import "fmt"

// Point 结构体表示一个二维数据点 (X, Y)
type Point struct {
    X float64
    Y float64
}

2. 线性回归函数签名

核心的线性回归函数 linearRegressionLSE 将接收一个 Point 切片作为输入（原始数据系列），并返回一个 Point 切片，其中包含每个输入 X 对应的预测 Y 值。

// linearRegressionLSE 函数使用最小二乘法计算并返回线性回归预测点
func linearRegressionLSE(series []Point) []Point {
    // ... 实现细节 ...
}

计算逻辑详解

linearRegressionLSE 函数的内部逻辑严格遵循最小二乘法的数学公式。

处理空输入：首先，检查输入数据系列是否为空。如果为空，则无法进行计算，直接返回一个空的 Point 切片。

q := len(series) // q 为数据点的数量
if q == 0 {
    return make([]Point, 0, 0)
}
p := float64(q) // 将数据点数量转换为浮点数，便于后续计算

累加各项和：遍历所有数据点，计算公式中所需的各项和：Σx、Σy、Σx² 和 Σxy。

sum_x, sum_y, sum_xx, sum_xy := 0.0, 0.0, 0.0, 0.0

for _, pt := range series { // 使用 pt 避免与外层 p 混淆
    sum_x += pt.X
    sum_y += pt.Y
    sum_xx += pt.X * pt.X
    sum_xy += pt.X * pt.Y
}

计算斜率 (m) 和截距 (b)：使用累加得到的和以及数据点数量 p，代入最小二乘法公式计算 m 和 b。

// 计算斜率 m
// 注意：如果分母为零，表示所有X值都相同，无法定义唯一斜率。
// 实际应用中需要考虑这种情况，此处简化处理。
denominator := p*sum_xx - sum_x*sum_x
if denominator == 0 {
    // 无法计算唯一斜率，例如所有X值都相同
    // 实际场景中可能需要返回错误或特殊处理
    // 这里为了示例简单，直接返回空结果或默认值
    return make([]Point, 0, 0)
}
m := (p*sum_xy - sum_x*sum_y) / denominator

// 计算截距 b
b := (sum_y / p) - (m * sum_x / p)

生成预测结果：根据计算出的斜率 m 和截距 b，以及原始数据点的 X 值，通过 y = mx + b 计算每个点的预测 Y 值，并将其存储在一个新的 Point 切片中返回。
```
r := make([]Point, q, q) // r 用于存储回归线上的点

for i, pt := range series {
    r[i] = Point{pt.X, (pt.X*m + b)} // 计算预测 Y 值
}

return r
```

完整代码示例

将上述所有部分整合，我们可以得到一个完整的Go语言最小二乘法线性回归实现：

package main

import "fmt"

// Point 结构体表示一个二维数据点 (X, Y)
type Point struct {
    X float64
    Y float64
}

// linearRegressionLSE 函数使用最小二乘法计算并返回线性回归预测点
func linearRegressionLSE(series []Point) []Point {

    q := len(series)

    if q == 0 {
        return make([]Point, 0, 0)
    }

    p := float64(q) // 将数据点数量转换为浮点数

    sum_x, sum_y, sum_xx, sum_xy := 0.0, 0.0, 0.0, 0.0

    // 累加各项和
    for _, pt := range series {
        sum_x += pt.X
        sum_y += pt.Y
        sum_xx += pt.X * pt.X
        sum_xy += pt.X * pt.Y
    }

    // 计算斜率 m
    denominator := p*sum_xx - sum_x*sum_x
    if denominator == 0 {
        // 如果所有X值都相同，分母为零，无法计算唯一斜率
        // 实际应用中应根据具体需求处理此边缘情况，例如返回错误
        fmt.Println("Error: Cannot calculate unique slope (all X values are the same).")
        return make([]Point, 0, 0)
    }
    m := (p*sum_xy - sum_x*sum_y) / denominator

    // 计算截距 b
    b := (sum_y / p) - (m * sum_x / p)

    // 生成回归线上的预测点
    r := make([]Point, q, q)
    for i, pt := range series {
        r[i] = Point{pt.X, (pt.X*m + b)}
    }

    return r
}

func main() {
    // 示例数据
    data := []Point{
        {X: 1, Y: 2},
        {X: 2, Y: 3},
        {X: 3, Y: 4},
        {X: 4, Y: 5},
        {X: 5, Y: 6},
    }

    // 执行线性回归
    predictedPoints := linearRegressionLSE(data)

    // 打印结果
    fmt.Println("原始数据点:")
    for _, p := range data {
        fmt.Printf("  X: %.2f, Y: %.2f\n", p.X, p.Y)
    }

    fmt.Println("\n线性回归预测点 (y = mx + b):")
    if len(predictedPoints) > 0 {
        // 为了演示方便，我们也可以计算出 m 和 b 并打印
        // 重新计算 m 和 b (或者将它们从函数中返回)
        q := len(data)
        p := float64(q)
        sum_x, sum_y, sum_xx, sum_xy := 0.0, 0.0, 0.0, 0.0
        for _, pt := range data {
            sum_x += pt.X
            sum_y += pt.Y
            sum_xx += pt.X * pt.X
            sum_xy += pt.X * pt.Y
        }
        denominator := p*sum_xx - sum_x*sum_x
        m := (p*sum_xy - sum_x*sum_y) / denominator
        b := (sum_y / p) - (m * sum_x / p)
        fmt.Printf("  斜率 (m): %.4f, 截距 (b): %.4f\n", m, b)

        for _, p := range predictedPoints {
            fmt.Printf("  X: %.2f, 预测Y: %.2f\n", p.X, p.Y)
        }
    } else {
        fmt.Println("  无法生成预测点。")
    }

    // 另一个示例：所有X值相同的情况
    data2 := []Point{
        {X: 1, Y: 2},
        {X: 1, Y: 3},
        {X: 1, Y: 4},
    }
    fmt.Println("\n测试所有X值相同的情况:")
    predictedPoints2 := linearRegressionLSE(data2)
    if len(predictedPoints2) == 0 {
        fmt.Println("  成功处理了所有X值相同的情况，未生成预测点。")
    }
}

使用注意事项与扩展

数据有效性与边缘情况：
- 空数据集：代码已处理空输入切片的情况。
- 所有X值相同：如果输入数据集中所有 X 值都相同，那么 p*sum_xx - sum_x*sum_x 将为零，导致分母为零，无法计算出唯一的斜率。代码中已添加基本检查和错误提示，实际应用中可能需要更健壮的错误处理机制（例如返回 (predictedPoints, error)）。
- 数据量：至少需要两个不同的数据点才能定义一条直线。
浮点数精度： Go语言中的 float64 提供了较高的精度，但在进行大量浮点数运算时，仍需注意潜在的精度累积误差。对于大多数线性回归场景，这通常不是问题，但对于极高精度要求的科学计算，可能需要考虑其他库或方法。
模型评估：此实现仅提供了回归线的计算，但一个完整的线性回归模型通常还需要评估其拟合优度。常用的评估指标包括：
- R² (决定系数)：衡量模型解释因变量变异的比例。
- 均方误差 (MSE) 或 均方根误差 (RMSE)：衡量预测值与真实值之间的平均误差大小。
- 残差分析：检查残差（实际值与预测值之差）的分布，以发现模型可能存在的偏差或不符合线性假设的情况。
更复杂的模型：本教程专注于简单的单变量线性回归。对于多元线性回归（多个自变量）或更复杂的非线性模型，此手动实现将变得复杂。在这种情况下，推荐使用专门的统计或机器学习库，例如 gonum/optimize 或 go-dsp/dsp 等，它们提供了更高级、更优化的算法和数据结构。