awk可高效统计web日志中客户端ip出现次数:基础法取首字段计数;正则法匹配ipv4并过滤非法地址;时间窗口法结合日期筛选;top n法用asorti内置排序输出高频ip。

如果您需要在Linux系统中快速分析Web服务器日志(如Nginx或Apache默认格式),提取客户端IP并统计其出现次数,则可借助Awk这一流式文本处理工具高效完成。以下是多种基于Awk的实现方法:
一、基础字段提取与计数(适用于标准Nginx access.log)
该方法假设日志首字段为客户端IP,且每行一条访问记录,通过关联数组累计各IP出现次数,并在处理结束后遍历输出。
1、执行命令:awk '{count[$1]++} END {for (ip in count) print count[ip], ip}' /var/log/nginx/access.log
2、为便于阅读,追加排序操作:awk '{count[$1]++} END {for (ip in count) print count[ip], ip}' /var/log/nginx/access.log | sort -nr
二、正则匹配提取IP(兼容多格式日志)
当IP可能位于不同列(如含前置代理头X-Forwarded-For)或日志格式不统一时,使用正则匹配更可靠,可捕获符合IPv4格式的首个有效地址。
1、启用扩展正则支持并匹配IPv4:awk 'match($0, /([0-9]{1,3}.){3}[0-9]{1,3}/) {ip = substr($0, RSTART, RLENGTH); count[ip]++} END {for (i in count) print count[i], i}' /var/log/nginx/access.log
2、过滤非法IP(如256.256.256.256)以提升准确性:awk 'match($0, /([0-9]{1,3}.){3}[0-9]{1,3}/) {ip = substr($0, RSTART, RLENGTH); if (ip ~ /^((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/) count[ip]++} END {for (i in count) print count[i], i}' /var/log/nginx/access.log
三、按时间窗口聚合(提取当日访问频次)
若需限定统计范围为最近24小时内的IP访问频率,可结合日志时间戳字段(通常为第4字段)进行条件筛选。
1、提取包含今日日期的日志行并统计:awk -v date="$(date +"%d/%b/%Y")" '$4 ~ "\[" date {count[$1]++} END {for (i in count) print count[i], i}' /var/log/nginx/access.log
2、增强时间匹配,支持精确到小时:awk -v now="$(date -d "-1 hour" +"%d/%b/%Y:%H")" '$4 ~ "\[" now {count[$1]++} END {for (i in count) print count[i], i}' /var/log/nginx/access.log
四、输出Top N高频IP(内置排序替代外部sort)
利用Awk数组下标不可排序的特性,配合asorti函数实现内部倒序索引排列,避免调用外部sort命令,减少进程开销。
1、获取访问频次最高的前10个IP:awk '{count[$1]++} END {n = asorti(count, sorted, "@val_num_desc"); for (i = 1; i
2、限制输出仅含频次≥100的IP:awk '{count[$1]++} END {n = asorti(count, sorted, "@val_num_desc"); for (i = 1; i = 100) print count[ip], ip}}' /var/log/nginx/access.log
五、处理压缩日志文件(无需解压)
针对已归档的.gz日志,可直接通过管道将zcat输出送入Awk,避免磁盘空间占用和解压耗时。
1、统计压缩日志中的IP频次:zcat /var/log/nginx/access.log.1.gz | awk '{count[$1]++} END {for (i in count) print count[i], i}' | sort -nr
2、联合多个压缩日志进行汇总统计:zcat /var/log/nginx/access.log.{1..5}.gz | awk '{count[$1]++} END {for (i in count) print count[i], i}' | sort -nr | head -20










