0

0

使用Python网页文档处理脚本实例代码

高洛峰

高洛峰

发布时间:2017-03-20 13:14:02

|

1431人浏览过

|

来源于php中文网

原创

  嵌入式web服务器不同于传统服务器,web需要转换成数组格式保存在flash中,才方便lwip网络接口的调用,最近因为业务需求,需要频繁修改网页,每次的压缩和转换就是个很繁琐的过程,因此我就有了利用所掌握的知识,利用python编写个能够批量处理网页文件,压缩并转换成数组的脚本。

  脚本运行背景(后续版本兼容):

      Python 3.5.1(下载、安装、配置请参考网上教程)

      node.js v4.4.7, 安装uglifyjs管理包,支持js文件非文本压缩

      uglifyjs 用来压缩JS文件的引擎

立即学习Python免费学习笔记(深入)”;

      具体实现代码如下:

#/usr/bin/python
import os
import binascii
import shutil 
from functools import partial
import re
import gzip

#创建一个新文件夹
def mkdir(path):
    path=path.strip()
    isExists=os.path.exists(path)
 
    #判断文件夹是否存在,不存在则创建
    if not isExists:
        os.makedirs(path)
        print(path+' 创建成功')
    else:
        pass
    return path

#删除一个文件夹(包含内部所有文件)
def deldir(path):
    path = path.strip()

    isExists=os.path.exists(path)
 
    #判断文件夹是否存在,存在则删除
    if isExists:
        shutil.rmtree(path)
        print(path + "删除成功")
    else:
        pass

#网页一次压缩文件
def FileReduce(inpath, outpath):
        infp = open(inpath, "r", encoding="utf-8")
        outfp = open(outpath, "w", encoding="utf-8")
        for li in infp.readlines():
            if li.split():
                #去除多余的\r \n
                li = li.replace('\n', '').replace('\t', '');
                #空格只保留一个
                li = ' '.join(li.split())
                outfp.writelines(li)
        infp.close()
        outfp.close()
        print(outpath+" 压缩成功")

#shell命令行调用(用ugllifyjs来压缩js文件)
def ShellReduce(inpath, outpath):
    Command = "uglifyjs "+inpath+" -m -o "+outpath
    print(Command)
    os.system(Command)

#gzip压缩模块
def FileGzip(inpath, outpath):
    with open(inpath, 'rb') as plain_file:
        with gzip.open(outpath, 'wb') as zip_file:
            zip_file.writelines(plain_file)
    print(outpath+" gzip-压缩成功")

#将文件以二进制读取, 并转化成数组保存
def FileHex(inpath, outpath):
    i = 0
    count = 0
    a = ''
    inf = open(inpath, 'rb');
    outf = open(outpath, 'w')
    records = iter(partial(inf.read, 1), b'')
    for r in records:
        r_int = int.from_bytes(r, byteorder='big')  
        a +=  strzfill(hex(r_int), 2, 2) + ', '
        i += 1
        count += 1
        if i == 16:             
            a += '\n'
            i = 0
    a = "const static char " + outpath.split('.')[-2].split('/')[-1] + "["+ str(count) +"]={\n" + a + "\n}\n\n" 
    outf.write(a)
    inf.close()
    outf.close()
    print(outpath + " 转换成数组成功")

#在指定位置填充0
def strzfill(istr, index, n):
    return istr[:index] + istr[index:].zfill(n)

#去css注释 /*.....*/
def unCommentReduce(inpath, outpath):
    infp = open(inpath, "r", encoding="utf-8")
    outfp = open(outpath, "w", encoding="utf-8")
    fileByte = infp.read();

    replace_reg = re.compile('/\*[\s\S]*?\*/')
    fileByte = replace_reg.sub('', fileByte)
    fileByte = fileByte.replace('\n', '').replace('\t', '');
    fileByte = ' '.join(fileByte.split())
    outfp.write(fileByte)
    infp.close()
    outfp.close()
    print(outpath+"去注释 压缩成功!")

#程序处理主函数
def WebProcess(path):
        #原网页 ..\basic\  
        #压缩网页 ..\reduce\
        #gzip二次压缩 ..\gzip
        #编译完成.c网页 ..\programe
        BasicPath = path + "\\basic"
        ReducePath = path + "\\reduce"
        GzipPath = path + "\\gzip"
        ProgramPath = path + "\\program"
        #删除原文件夹,再创建新文件夹
        deldir(ProgramPath)
        deldir(ReducePath)
        deldir(GzipPath)
        mkdir(ProgramPath)

        for root, dirs, files in os.walk(BasicPath):
                for item in files:
                        ext = item.split('.')
                        InFilePath = root + "/" + item
                        OutReducePath = mkdir(root.replace("basic", "reduce")) + "/" + item
                        OutGzipPath = mkdir(root.replace("basic", "gzip"))  + "/" + item + '.gz'
                        OutProgramPath = ProgramPath + "/" + item.replace('.', '_') + '.c'

                        #根据后缀不同进行相应处理
                        #html 去除'\n','\t', 空格字符保留1个
                        #css  去除\*......*\注释数据、'\n'和'\t', 同时空格字符保留1个
                        #js 调用uglifyjs2进行压缩
                        #gif jpg ico 直接拷贝 
                        #其它 直接拷贝
                        #上述执行完毕后压缩成.gz文件
                        #除其它外,剩余文件同时转化成16进制数组, 保存为.c文件
                        if ext[-1] == 'html':
                            FileReduce(InFilePath, OutReducePath)
                            FileGzip(OutReducePath, OutGzipPath)
                            FileHex(OutGzipPath, OutProgramPath)
                        elif ext[-1] == 'css':
                            unCommentReduce(InFilePath, OutReducePath)
                            FileGzip(OutReducePath, OutGzipPath)
                            FileHex(OutGzipPath, OutProgramPath)
                        elif ext[-1] == 'js':
                            ShellReduce(InFilePath, OutReducePath)
                            FileGzip(OutReducePath, OutGzipPath)
                            FileHex(OutGzipPath, OutProgramPath)
                        elif ext[-1] in ["gif", "jpg", "ico"]:
                            shutil.copy(InFilePath, OutReducePath)
                            FileGzip(OutReducePath, OutGzipPath)
                            FileHex(OutGzipPath, OutProgramPath)
                        else:
                            shutil.copy(InFilePath, OutReducePath)


#获得当前路径
path = os.path.split(os.path.realpath(__file__))[0];
WebProcess(path)

上述实现的原理主要包含:

1.遍历待处理文件夹(路径为..\basic,需要用户创建,并将处理文件复制到其中,并将脚本放置到该文件夹上一层)--WebProcess

2.创建压缩页面文件夹(..\reduce, 用于存储压缩后文件), 由脚本完成,处理动作:

 htm: 删除文本中的多余空格,换行符

 css: 删除文本中的多余空格,换行符及注释文件/*......*/

   js:调用uglifyjs进行压缩处理

   gif, jpg, ico和其它: 直接进行复制处理

台讯电子企业网站管理系统  简繁全功能版
台讯电子企业网站管理系统 简繁全功能版

超级适合代理建设企业站点的企业源码,超方面实用!程序说明: 1.特色:简繁中文切换、产品展示系统、新闻发布系统、会员管理系统、留言本计数器、网站信息统计、强大后台操作 功能等; 2.页面包括:首页、企业介绍、滚动公告通知发布系统、企业新闻系统、产品展示系统、企业案例发布展示系 统、企业招聘信息发布系统、信息资源下载系统、在线定单系统、在线客服系统、在线留言本系统、网站调查投票系统、友情连接系统、会

下载

3.创建gzip文件处理文件夹(..\gzip, 用于保存二次压缩后文件), 由脚本调用gzip模块完成。

4.创建处理页面文件夹(..\program, 用于存储压缩后文件), 由脚本完成,处理动作:

 以二进制模式读取文件,并转换成16进制字符串写入到文件中。

在文件夹下(shift+鼠标右键)启用windows命令行,并输入python web.py, 就可以通过循环重复这三个过程就可以完成所有文件的处理。

特别注意:所有处理的文件需要以utf-8格式存储,否则读取时会报"gbk"读取错误。

实现效果如下图

html文件:

使用Python网页文档处理脚本实例代码

转换数组:

使用Python网页文档处理脚本实例代码

另外附送一个小的脚本,查询当前目录及子文件夹下选定代码行数和空行数(算是写这个脚本测试时衍生出来的):

#/usr/bin/python
import os

total_count = 0; 
empty_count = 0;

def CountLine(path):
        global total_count
        global empty_count
        tempfile = open(path)
        for lines in tempfile:
                total_count += 1
                if len(lines.strip()) == 0:
                       empty_count += 1
 
def TotalLine(path):
        for root, dirs, files in os.walk(path):
                for item in files:
                        ext = item.split('.')
                        ext = ext[-1]  
                        if(ext in ["cpp", "c", "h", "java", "php"]):
                                subpath = root + "/" + item
                                CountLine(subpath)

path = os.path.split(os.path.realpath(__file__))[0];
TotalLine(path)
print("Input Path:", path)
print("total lines: ",total_count)
print("empty lines: ",empty_count)
print("code lines: ", (total_count-empty_count))

相关文章

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

32

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

23

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

16

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

5

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

6

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

268

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

195

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

170

2026.01.31

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

85

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号