最近有一个小需求:在一个目录下有很多文件,每个文件的第一行是begin开头的,最后一行是end开头的,中间每一行有多列,数量不等,第一列称为"dn", 第二列称为"cv",dn和cv的联合作为主键,现在需要检测文件中是否有重复的dn-cv。
于是写了个简单的python程序
#! /usr/bin/python
import os
import sys
cmd = "cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END"
def check_dc_line():
has_duplicate = False
dc_set = set()
for dc_line in os.popen(cmd, 'r').readlines():
dc_token = dc_line.split()
dn = dc_token[0]
cv = dc_token[1]
dc = dn + "," + cv
if dc in dc_set:
print "duplicate dc found:", dc
has_duplicate = True
else:
dc_set.add(dc)
return has_duplicate
if not check_dc_line():
print "no duplicate dc"对于250个文件,共60万行的数据,过滤一遍约1.67秒
有点不甘心这个效率,于是又写了一个同样功能的shell脚本
#! /bin/bash
cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END | awk '
BEGIN {
has_duplicate = 0
}
{
dc = $1","$2;
if (dc in dc_set)
{
print "duplicate dc found", dc
has_duplicate = 1
}
else {
dc_set[dc] = 1
}
}
END {
if (has_duplicate ==0)
{
print "no duplicate dc found"
}
}
'为了进一步比较,重复了10次实验。
由于精力有限,程序更新比较慢,请大家谅解,再次感谢支持taycms的朋友们,虽然比较慢,我们还是会一直更新下去的。谢谢您的关注。有什么建议可以到论坛提出,或者直接给我QQ留言。 2.0会有很多新功能,请关注官方论坛TayCMS 1.8 升级日志此版本修复了不少BUG1.更换图片切换JS , 不会再有错误提示2.增加资料下载模块3.更换默认模版,使程序功能和页面结构更清晰,方便参考制作模版4.修复留
立即学习“Python免费学习笔记(深入)”;











