最近写了一个抓取脚本,抓取的大部分内容正常,但少部分乱码
检测字符编码,得出的结果是CP936
mb_detect_encoding($str, 'GBK, gb2312, GB18030, ISO-8859-1, ASCII, UTF-8', true)
尝试转换此编码,但得出的结果还是乱码
程序采用ASP+ACCESS开发完成。中英繁三语言,所有页面采用UTF-8全球通用编码,兼容简体中文、繁体中文及英语,适用于中小企业网站运用。后台数据同时录入中文及英文,繁体采用JS自动转换,无需维护。免费版主要功能如下:·系统管理:系统综合设置、管理员管理、数据库备份、上传文件管理。·单页管理:自由无限制添加个性页面,如:公司简介、组织结构、联系我们等
mb_convert_encoding($str, 'UTF-8', 'CP936'); 氓聧掳氓潞娄盲赂聙70氓虏聛猫聙聛氓陇麓莽聦楼盲潞碌7氓虏聛氓楼鲁氓颅漏猫聙聦猫垄芦忙聧聲
最后发现,这样可以转码
iconv('utf-8', 'latin1', $str);
iconv('utf-8','latin1//IGNORE', $str);









