encoding - 用PHP如何检测一个ZIP包内的文件是在何种编码的系统下创建的-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

encoding - 用PHP如何检测一个ZIP包内的文件是在何种编码的系统下创建的

PHP中文网 2017-04-10 14:25:17

[PHP讨论组]

1123

事情起源于在WIN下创建的zip放到linux下解压时，中文路径和文件名会出现乱码，于是动手写了个脚本转换zip内文件名的代码。但是，如果是在日语、韩语或者繁体字WIN系统下建立的zip，由于不知道原始编码格式，导致无法转码。
怎么解。。。

PHP中文网

认证高级PHP讲师

全部回复(4)

PHPz2017-04-10 14:27:17 4楼

LZ 的 id 看着眼熟 ... 这么多年了还在问这个等级的问题 ... 你也不容易啊你 ...

<?php
/* well ... prepare our zip file ... */
$zip = new ZipArchive;
$res = $zip->open( '/path/to/your.zip' );

/* can not open ..? are you kidding me ..? */
if ( true !== $res )
    throw new Exception( 'Can Not Open Zip File / ' . $res );

/* default value of file encoding ... */
$encoding = 'EMTPY';

/* controller ... change this if mb_detect_encoding return wrong answer ... */
$controller = null;

/* get file list ... */
for ( $i = 0; $i < $zip->numFiles; ++ $i ) {

    /* get file encoding ... */
    $encoding = mb_detect_encoding( $zip->getNameIndex( $i ), $controller );

    /* we do not need english named files ... */
    if ( 'ASCII' !== $encoding ) break;

}

/* clean table ... */
$zip->close();

/* simply output ... */
echo $encoding;

代码就是这样了 ... 根据文件名来判断系统 ...

简体中文的 windows 会返回 EUC-CN ... 繁体中文我猜测应该是 EUC-TW 或者 BIG5 ...

Linux 和 MacOS 都是 UTF-8 ... 纯英文的文件就别捣乱了 ...

赞 +0

添加回复

阿神2017-04-10 14:27:17 3楼

@Ven 就是文件名的编码吧，稍微改了下楼上的代码，我的系统是linux，所以要把非UTF-8的重新编码为UTF-8

<?php
function detect_encoding($zipfile_name){
    $zip = new ZipArchive;
    $res = $zip->open($zipfile_name);
    if(true !== $res)
        throw new Exception('Can Not Open Zip File '.$res);

    $encoding = "UTF-8";
    $controller = array("ASCII","UTF-8", "GB2312", "GBK", "BIG5");

    for($i = 0; $i < $zip->numFiles; ++ $i){
        $entry = $zip->getNameIndex($i);
        $encoding = mb_detect_encoding($entry, $controller);
        if( "UTF-8" !== $encoding)
            $entry = iconv($encoding, "UTF-8", $entry);
        echo $entry." ---> ".$encoding.chr(10);
    }
    $zip->close();
}
detect_encoding($argv[1]);
?>

赞 +0

添加回复

巴扎黑2017-04-10 14:27:17 2楼

正确答案见@Sunyanzi 的回答，这里再补充一些。
由于Windows系统的历史原因，部分压缩软件生成的zip包，在用mb_detect_encoding()检查文件名的编码时，会得到类似“CP936”这样的结果。我当时在这里被搞晕了，以为函数没能正确检测到编码。实际上CP936是微软自己的一套标准，基本上等于GBK。
而关于其他的“CP***”的编码对应关系，或许可以参看这篇文章：Windows代码页

赞 +0

添加回复