0

0

LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法

尼克

尼克

发布时间:2025-10-22 09:45:02

|

309人浏览过

|

来源于php中文网

原创

使用sort与uniq或awk可去除Linux文本文件重复行。先排序使相同行相邻,再用uniq过滤,命令为sort file.txt | uniq > output.txt;或用awk通过数组记录已出现行实现去重,命令为awk '!seen[$0]++' file.txt > output.txt。

linux怎么去除文本文件中的重复行_linux文本文件去重方法

如果您在处理文本文件时发现其中包含大量重复的行,这可能会影响数据的准确性和后续分析的效率。通过去除这些重复内容,可以有效提升文件质量。以下是几种在Linux系统中去除文本文件重复行的方法。

本文运行环境:Dell XPS 13,Ubuntu 24.04

一、使用sort命令结合uniq去重

该方法先对文件内容进行排序,使相同行相邻,再利用uniq命令过滤连续的重复行,从而实现去重目的。

1、打开终端,执行以下命令对文件进行排序并去除相邻重复行:sort file.txt | uniq > output.txt

2、若希望直接修改原文件,可使用重定向配合临时文件:sort file.txt | uniq > temp.txt && mv temp.txt file.txt

3、如需统计每行出现的次数,可在uniq后添加-c选项:sort file.txt | uniq -c

二、使用awk实现去重

awk是一种强大的文本处理工具,能够逐行读取文件并通过数组记录已出现的行,从而识别并跳过重复内容。

1、运行如下命令,利用awk的关联数组特性去除重复行:awk '!seen[$0]++' file.txt > output.txt

2、若需要保留最后一次出现的重复行而非第一次,可采用反向处理方式:awk '{lines[NR]=$0; count[$0]=NR} END {for(i=1;i

三、使用sed结合其他命令去重

sed本身不擅长全局状态管理,但可通过与shell循环结合的方式逐行检查并删除后续重复项,适用于小规模文件。

1、执行以下复合命令,逐行匹配并删除后面相同的行:sed -i '$!N; /^\(.*\)\n\1$/!P; D'

2、将排序和sed处理分离,先排序再用sed简化逻辑:sort file.txt | sed '$!N; /^\(.*\)\n\1$/!P; D' > output.txt

四、利用perl脚本快速去重

perl语言在正则表达式和文本处理方面表现优异,适合编写简洁的去重脚本,能够在单行命令中完成复杂逻辑。

1、使用perl读取每一行,并借助哈希表记录已出现的行:perl -ne 'print unless $seen{$_}++' file.txt > output.txt

2、若需忽略行首尾空白字符后再比较,可调整为:perl -lne 's/^\s+|\s+$//g; print unless $seen{$_}++' file.txt > output.txt

相关专题

更多
counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.20

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

387

2023.09.04

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1349

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

703

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

294

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

776

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

573

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

545

2023.07.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

23

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.4万人学习

Git 教程
Git 教程

共21课时 | 2.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号