Go语言实现简单数据统计工具_Go数据处理项目

P粉602998670

发布时间：2026-01-14 06:17:18

401人浏览过

来源于php中文网

原创

bufio.Scanner 是流式读取大文件最轻量的选择，但默认缓冲区仅64KB，遇超长行会报错；需调用 scanner.Buffer(make([]byte, 64*1024), 1<<30) 扩容缓冲区。

go语言实现简单数据统计工具_go数据处理项目

用 `bufio.Scanner` 逐行读取大文件不爆内存

统计工具常要处理 GB 级日志或 CSV，直接 os.ReadFile 容易 OOM。必须流式读取，bufio.Scanner 是最轻量的选择，但默认缓冲区只有 64KB，遇到超长行会报 scanner: token too long。

调用前用 scanner.Buffer(make([]byte, 64*1024), 1 手动扩容，第二个参数设为 1MB 防止截断
别用 scanner.Text() 后再 strings.Split 做二次切分——每行都新建字符串，GC 压力大；改用 bytes.FieldsFunc(line, func(r rune) bool { return r == '\t' || r == ',' }) 原地切分字节切片
如果文件是带 BOM 的 UTF-8，需在读取前跳过前 3 字节：if bytes.HasPrefix(line, []byte{0xEF, 0xBB, 0xBF}) { line = line[3:] }

用 `map[string]int64` 做高频计数，但注意并发安全

统计 PV、UV、状态码分布等场景，map[string]int64 查找快、内存省。但 Go 的 map 默认非并发安全，多 goroutine 写入会 panic：fatal error: concurrent map writes。

Khroma

AI调色盘生成工具

下载

单线程处理就直接用普通 map，性能最好
需要并发（比如启动多个 go processChunk(...)），必须换 sync.Map 或加 sync.RWMutex；但 sync.Map 的 LoadOrStore 在高命中率下比加锁慢 2–3 倍，实测 1000 万次写入，普通 map + mutex 耗时约 180ms，sync.Map 约 290ms
如果只是最终合并结果，更推荐分片 map：每个 goroutine 维护自己的 map[string]int64，结束后用 for-range 合并到主 map，避免全程锁竞争

输出 JSON 或 TSV 时控制精度和格式

统计结果导出后常被下游脚本或 BI 工具消费，字段类型错位会导致解析失败。Go 默认的 json.Marshal 对 float64 会输出科学计数法（如 1.2e7），而 Python pandas 读 TSV 时若某列混入字符串，整列会被转成 object 类型。

导出 JSON 用 json.Encoder 替代 json.Marshal，可禁用 HTML 转义：enc := json.NewEncoder(w); enc.SetEscapeHTML(false)
导出 TSV 时，数字字段统一用 fmt.Sprintf("%.0f", v) 强制转整数字符串，避免小数点后带 0；字符串字段用 strconv.Quote 包裹，防止含 tab 或换行导致列错位
时间戳统一用 Unix 秒级整数输出，别用 time.Now().Format("2006-01-02")——字符串排序和范围查询都麻烦

package main

import (
	"bufio"
	"fmt"
	"log"
	"os"
	"sort"
	"strconv"
	"strings"
	"sync"
)

type Stats struct {
	mu    sync.RWMutex
	count map[string]int64
}

func (s *Stats) Inc(key string) {
	s.mu.Lock()
	s.count[key]++
	s.mu.Unlock()
}

func (s *Stats) TopN(n int) []struct{ Key string; Count int64 } {
	s.mu.RLock()
	defer s.mu.RUnlock()

	pairs := make([]struct{ Key string; Count int64 }, 0, len(s.count))
	for k, v := range s.count {
		pairs = append(pairs, struct{ Key string; Count int64 }{k, v})
	}
	sort.Slice(pairs, func(i, j int) bool { return pairs[i].Count > pairs[j].Count })
	if n < len(pairs) {
		pairs = pairs[:n]
	}
	return pairs
}

func main() {
	file, err := os.Open("access.log")
	if err != nil {
		log.Fatal(err)
	}
	defer file.Close()

	scanner := bufio.NewScanner(file)
	scanner.Buffer(make([]byte, 64*1024), 1<<20)

	stats := &Stats{count: make(map[string]int64)}

	for scanner.Scan() {
		line := scanner.Bytes()
		if len(line) == 0 {
			continue
		}
		parts := bytes.FieldsFunc(line, func(r rune) bool {
			return r == ' ' || r == '\t'
		})
		if len(parts) > 8 {
			status := string(parts[8])
			stats.Inc(status)
		}
	}

	if err := scanner.Err(); err != nil {
		log.Fatal(err)
	}

	for _, p := range stats.TopN(5) {
		fmt.Printf("%s\t%d\n", p.Key, p.Count)
	}
}

真正卡住进度的往往不是算法，而是大文件读取时的缓冲区设置、并发 map 的锁粒度选择，以及导出格式里一个没转义的 tab 字符。这些细节不试一次根本想不到。

将 float64 转换为十进制底数下的系数与指数表示

如何为 Go HTTP 客户端设置超时以避免程序挂起

如何在 Go GXUI 中正确设置 TextBox 的尺寸

Go语言中tls.Conn的并发安全性详解

Go语言中 tls.Conn 的并发安全特性详解

相关标签:

go go语言工具 csv Token Go语言

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Go反射如何判断字段是否导出_Go字段可访问性说明下一篇：Go语言反射如何提升可扩展性_Golang架构设计思路

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6655

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

844

2023.09.14