必须用指定编码的inputstreamreader包装inputstream再传给inputsource,否则平台默认编码导致中文乱码;xml声明encoding须与实际字节流编码严格一致,setencoding()仅影响声明处理而不改变字节解码。

InputSource 构造时传入 InputStream 而非 File 或路径
直接用 new InputSource("xxx.xml") 会让 SAX 默认按系统编码读取,Windows 上通常是 GBK,Linux/macOS 是 UTF-8,一碰到中文就崩。必须自己控制字节流的解码逻辑。
正确做法是先用指定编码(如 UTF-8)把文件转成 InputStream,再包一层 InputStreamReader,最后喂给 InputSource:
File file = new File("data.xml");
InputStream is = new FileInputStream(file);
InputStreamReader reader = new InputStreamReader(is, "UTF-8");
InputSource source = new InputSource(reader);
- 别用
new InputSource(new FileReader("xxx.xml"))——FileReader不接受编码参数,永远走平台默认编码 - 如果 XML 文件声明了
<?xml version="1.0" encoding="GBK"?>,这里也得配成"GBK",否则声明和实际解码不一致,照样乱码 -
InputStreamReader的编码名必须是 Java 支持的标准名(如"UTF-8"、"GBK"),不能写"utf8"或"gb2312"(虽部分兼容但不保证)
XML 声明 encoding 和实际字节流编码必须严格一致
SAX 解析器会先读 XML 声明行,提取 encoding 属性,然后尝试用该编码去解码后续内容。如果文件实际是 UTF-8 编码,但声明写成了 encoding="GBK",或者反过来,解析器就会用错编码读字节,中文变问号或方块。
检查方式很简单:用十六进制编辑器(如 HxD、xxd)看前几个字节。UTF-8 中文“测试”是 e6b58be8af95,GBK 是 24e2b2e2;再对照 XML 第一行是否匹配。
立即学习“Java免费学习笔记(深入)”;
- 编辑器保存时注意选对编码——IDEA 默认 UTF-8 无 BOM,记事本存 UTF-8 带 BOM,BOM 会影响 SAX 对声明行的定位,可能导致解析失败或跳过声明
- 如果无法改源文件(比如第三方接口返回的 XML),那就别信它的声明,强制用你确认的编码构造
InputStreamReader,并调用source.setEncoding(null)告诉解析器“别看声明,我来定”
setEncoding() 不是万能的,它只影响解析器对声明的处理
InputSource.setEncoding("UTF-8") 看起来像在设解码方式,其实只是告诉 SAX:“如果 XML 声明里写了别的 encoding,请忽略,以这个为准”。它**完全不改变底层字节流怎么读**。
换句话说:如果你传进去的是个没指定编码的 FileReader,再调 setEncoding() 也没用,乱码已经发生在 Reader 构造那一步了。
- 只有当你传的是
InputStream(或带编码的InputStreamReader)时,setEncoding()才有意义 - 常见误用:
new InputSource(new FileInputStream("x.xml")).setEncoding("UTF-8")—— 这里FileInputStream本身不涉及编码,SAX 还是会拿声明里的 encoding 去解码字节,而字节根本没被按 UTF-8 读过 - 真正生效的链路是:
InputStream→InputStreamReader(用对编码)→InputSource(可选setEncoding()同步声明)
Android 或老 JDK 环境下注意 GBK/GB2312 的支持差异
部分 Android 版本或精简 JRE(如某些嵌入式环境)不自带 "GBK" 字符集实现,调用 new InputStreamReader(is, "GBK") 会抛 UnsupportedEncodingException。
安全做法是捕获异常并 fallback,或提前检查:
if (Charset.isSupported("GBK")) {
reader = new InputStreamReader(is, "GBK");
} else {
reader = new InputStreamReader(is, "GB18030"); // 更广谱的国标
}
-
"GB18030"是 GBK 的超集,兼容所有 GBK 字符,且被所有现代 JDK 和 Android 支持 - 不要依赖
System.getProperty("file.encoding"),它不可靠,且和 XML 实际编码无关 - 如果 XML 来自网络响应,务必从 HTTP
Content-Type头(如text/xml; charset=GBK)取编码,而不是硬编码
InputStream → 用确认无误的编码构造 InputStreamReader → 塞给 InputSource → 必要时 setEncoding() 对齐声明。中间任何一环绕开编码控制,中文就大概率出问题。










