0

0

LINUX的uniq命令如何正确使用_LINUX下文本去重前为何要先排序

下次还敢

下次还敢

发布时间:2025-12-06 18:55:02

|

462人浏览过

|

来源于php中文网

原创

使用uniq去重前需先排序,因其仅处理相邻重复行。1. 通过sort file.txt | uniq实现完整去重;2. 直接用uniq input.txt output.txt去除连续重复行;3. 使用uniq -c统计每行出现次数,并可结合sort -nr按频次排序;4. 添加-i选项忽略大小写比较,需配合sort -f确保一致性;5. 利用-f N跳过前N个字段或-s N跳过前N字符,实现基于部分字段的去重,如sort -k2 file | uniq -f 1按第二字段去重。

linux的uniq命令如何正确使用_linux下文本去重前为何要先排序

如果您在处理大量文本数据时发现存在重复行,希望将其合并或统计出现次数,LINUX系统中的uniq命令是一个高效的工具。但需要注意的是,该命令仅能识别并处理相邻的重复行,因此在使用前通常需要先对文本进行排序。

本文运行环境:联想ThinkPad X1 Carbon,Ubuntu 22.04。

一、为何去重前必须先排序

uniq命令的工作机制决定了它只能检测连续的重复行。当相同的行分散在文件不同位置时,未排序的情况下,uniq会将它们视为独立条目。只有通过sort命令预先整理文本,使相同内容的行相邻排列,才能确保所有重复项被正确识别和处理。

1、执行sort file.txt可生成按字典序排列的输出结果。

2、将排序结果传递给uniq命令:sort file.txt | uniq,即可实现完整去重。

二、去除连续重复行

直接使用uniq命令可以删除相邻的重复行,保留每组重复行中的第一行。这种方法适用于已经排序过的数据。

1、输入uniq input.txt output.txt,从input.txt读取内容并将去重后结果写入output.txt。

2、若省略输出文件名,则结果会输出到标准输出设备(屏幕)。

3、注意:如果原始文件包含非连续的重复行,此方法无法完全去除所有重复项

三、统计每行出现的次数

使用-c选项可以让uniq显示每一行出现的频次,便于分析数据分布情况。

1、运行uniq -c data.txt,将在每行前添加该行重复次数。

谱乐AI
谱乐AI

谱乐AI,集成 Suno、Udio 等顶尖AI音乐模型的一站式AI音乐生成平台。

下载

2、输出格式为“数字 行内容”,例如“3 apple”表示apple连续出现了三次。

3、结合sort命令可实现按频率排序:sort data.txt | uniq -c | sort -nr,其中-nr表示按数值逆序排列。

四、忽略大小写进行比较

在某些场景下,需将大写与小写字母视为相同内容进行去重。此时可通过-i选项实现不区分大小写的匹配。

1、执行sort -f input.txt | uniq -i,-f参数让sort也忽略大小写排序。

2、这样,“Hello”和“hello”会被当作同一行处理。

3、此操作特别适用于处理用户输入或日志记录等不规范文本。务必保证排序与去重阶段均忽略大小写,否则可能导致遗漏。

五、比较指定字段而非整行

有时只需根据行中某一部分(如第二列)判断是否重复,这时可用-f和-s选项跳过或截断字段。

1、使用-f N跳过前N个空白分隔的字段,例如uniq -f 1 log.txt表示忽略每行第一个字段。

2、使用-s N跳过每行前N个字符,适合固定格式的日志文件。

3、组合使用时,先跳字段再跳字符,例如sort -k2 file | uniq -f 1基于第二字段去重。

相关专题

更多
sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

385

2023.09.04

点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

180

2023.11.24

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1348

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

701

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

294

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

776

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

572

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

545

2023.07.20

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

36

2026.01.14

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号