Java中char、String与字符编码：深度解析字节占用与转换机制

碧海醫心

发布时间：2025-10-24 12:47:11

459人浏览过

来源于php中文网

原创

Java中char、String与字符编码：深度解析字节占用与转换机制

本文深入探讨java中`char`类型固定占用2字节（utf-16）的特性，以及`string`作为unicode文本在内存中的表示。重点阐述`string`转换为字节数组时，其最终字节长度完全取决于所选字符编码（如utf-8、utf-16），而非简单的`char`数量。文章通过示例代码和多编码对比，揭示了字符编码在文本与二进制数据转换中的核心作用，并强调了指定编码的重要性。

在Java编程中，char类型和String对象的字节占用及它们与字节数组（byte[]）之间的转换，是初学者常遇到的困惑点。尤其是在涉及字符编码时，对这些概念的理解尤为关键。

Java中char的内存表示

在Java中，char类型是一个基本数据类型，它被设计用来存储Unicode字符。根据Java规范，char类型固定占用 2个字节（16位），并使用UTF-16编码来表示字符。这意味着，无论存储的是英文字母、数字还是中文字符，一个char变量在内存中总是占据2个字节。

例如，以下代码片段验证了char在转换为字节数组时，通常会占用2个字节（如果使用UTF-16编码）：

public static byte[] charToByte(char c) {
    // 将char转换为String，再用UTF-16编码获取字节
    return String.valueOf(c).getBytes(StandardCharsets.UTF_16);
}

public static void main(String[] args) {
    char c = 'c';
    System.out.println("char '" + c + "' occupies " + charToByte(c).length + " bytes (UTF-16 encoded).");
    // 输出: char 'c' occupies 4 bytes (UTF-16 encoded).
    // 注意：这里是4字节，因为UTF-16编码通常会包含BOM（Byte Order Mark），
    // 实际字符'c'本身是2字节。更准确的获取单个char的UTF-16字节表示，
    // 可以通过ByteBuffer或手动操作。
    // 如果不考虑BOM，String.valueOf(c).getBytes(StandardCharsets.UTF_16BE)会是2字节。
    System.out.println("char '" + c + "' occupies " + String.valueOf(c).getBytes(StandardCharsets.UTF_16BE).length + " bytes (UTF-16BE encoded).");
    // 输出: char 'c' occupies 2 bytes (UTF-16BE encoded).
}

通过StandardCharsets.UTF_16BE（大端字节序，不含BOM），我们可以更直观地看到单个char字符的UTF-16编码确实是2个字节。

立即学习“Java免费学习笔记（深入）”；

String的内部表示与Unicode

String对象在Java中用于存储文本序列。它在概念上持有Unicode字符序列，这意味着一个String可以包含来自世界上任何语言的字符。

历史上，String内部通常是通过一个char数组（char[]）来存储这些Unicode字符的。每个char元素占用2字节，因此一个包含N个字符的String，其内部char数组理论上会占用N * 2字节的内存。

然而，从Java 9开始，为了优化内存使用，String的内部实现进行了改进。如果String中的所有字符都可以用Latin-1编码（即所有字符的Unicode值都在0-255之间），那么String会使用一个byte数组（byte[]）来存储，每个字符占用1个字节，从而节省一半的内存。如果存在非Latin-1字符，则仍然使用char数组（或等效的2字节byte数组）存储。

需要强调的是，这种内部存储机制是Java运行时环境的实现细节，作为开发者，我们不应该依赖它来计算String的字节长度。String的API（如length()方法）仍然返回字符数量，而不是字节数量。

文本与二进制数据：字符编码的重要性

当我们将String对象转换为字节数组（byte[]）时，例如通过String.getBytes()方法，字符编码（Charset）的概念就变得至关重要。String.getBytes()方法如果没有指定字符编码，会使用平台默认的字符编码。而这个默认编码在不同的操作系统或JVM配置下可能不同，这可能导致不可预测的行为和乱码问题。

SoftGist

SoftGist是一个软件工具目录站，每天为您带来最好、最令人兴奋的软件新产品。

下载

一个String转换为byte[]的最终字节长度，完全取决于所使用的字符编码，而不是String中char的数量。

考虑以下示例：

String test = "a";
System.out.println("String \"" + test + "\" using default charset: " + test.getBytes().length + " bytes.");
// 在UTF-8环境下，输出: String "a" using default charset: 1 bytes.

String complexString = "ruĝa"; // 包含特殊字符
System.out.println("String \"" + complexString + "\" using default charset: " + complexString.getBytes().length + " bytes.");
// 在UTF-8环境下，输出: String "ruĝa" using default charset: 5 bytes.
// 'r', 'u', 'a' 各占1字节，'ĝ' 占2字节，总计 1+1+2+1 = 5字节。

为什么"a"的getBytes().length是1，而不是2（因为char是2字节）？原因在于，当getBytes()被调用时，它将String中的Unicode字符序列按照指定的或默认的字符编码转换为字节流。在许多现代系统上，默认编码是UTF-8。在UTF-8编码下，英文字母'a'只需要1个字节来表示。

不同字符编码对字节长度的影响

不同的字符编码方案对同一个String会产生不同的字节序列和字节长度。

编码方案	"ruĝa" (4个Unicode字符)	字节长度	备注
Latin-1	"ru?a" (可能丢失信息)	4 bytes	无法表示 'ĝ'，会替换为问号或乱码
Latin-3	"ruĝa"	4 bytes	'r','u','ĝ','a' 各1字节
UTF-8	"ruĝa"	5 bytes	'r','u','a' 各1字节，'ĝ' 2字节
UTF-16	"ruĝa"	8 bytes	每个char通常2字节（不含BOM时），4个char共8字节
UTF-32	"ruĝa"	16 bytes	每个Unicode码点4字节

示例代码：

import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;

public class CharsetConversion {
    public static void main(String[] args) {
        String s = "ruĝa"; // 包含特殊字符

        // 推荐始终指定字符编码
        System.out.println("String \"" + s + "\" length (chars): " + s.length());

        // 使用UTF-8编码
        byte[] utf8Bytes = s.getBytes(StandardCharsets.UTF_8);
        System.out.println("UTF-8 encoded: " + utf8Bytes.length + " bytes."); // 5 bytes

        // 使用UTF-16编码 (通常包含BOM, 所以是8+2=10字节, 或不含BOM是8字节)
        byte[] utf16Bytes = s.getBytes(StandardCharsets.UTF_16);
        System.out.println("UTF-16 encoded: " + utf16Bytes.length + " bytes."); // 10 bytes (含BOM)
        byte[] utf16beBytes = s.getBytes(StandardCharsets.UTF_16BE);
        System.out.println("UTF-16BE encoded: " + utf16beBytes.length + " bytes."); // 8 bytes (不含BOM)

        // 使用Latin-1编码 (可能导致信息丢失)
        byte[] latin1Bytes = s.getBytes(StandardCharsets.ISO_8859_1);
        System.out.println("ISO_8859_1 (Latin-1) encoded: " + latin1Bytes.length + " bytes."); // 4 bytes, 但 'ĝ' 会被替换

        // 获取内存中String对象所代表的char数组的理论字节长度 (近似于UTF-16BE编码)
        // 这里的目的是为了回答原问题中关于char占用2字节的疑惑
        System.out.println("String \"" + s + "\" conceptual memory bytes (UTF-16BE): " + s.getBytes(StandardCharsets.UTF_16BE).length + " bytes.");
    }
}

从上述例子可以看出，String的字节长度随着编码方式的不同而变化。如果想获取String在内存中（如果内部是char[]存储）大致的字节占用，使用StandardCharsets.UTF_16BE编码转换通常能提供一个接近的数值，因为它与char的2字节UTF-16表示相符。

Unicode字符与char数量的复杂性

虽然一个char是2字节，但一个Unicode字符（也称为码点，Code Point）不一定只占用一个char。

基本多语言平面 (BMP) 字符: 大多数常用字符（如英文字母、汉字、数字）都属于BMP，它们的Unicode码点在U+0000到U+FFFF之间，可以由一个Java char（16位）表示。
补充字符 (Supplementary Characters): 一些不常用的字符（如某些表情符号、古文字）的Unicode码点超出了U+FFFF，它们被称为补充字符。在Java中，一个补充字符需要由两个char来表示，这两个char构成一个“代理对”（Surrogate Pair）。

此外，一些字符可以由单个码点表示（预组合字符），也可以由多个码点表示（基字符 + 组合字符）。例如，带重音符的é可以是一个单一的Unicode码点（U+00E9），也可以是字符e（U+0065）后面跟着一个组合用尖音符（U+0301）。这两种表示在视觉上是相同的，但在String的length()方法和char数组中可能表现出不同的长度。

总结与注意事项

char固定2字节: Java中的char类型始终占用2个字节，以UTF-16编码存储单个字符。
String是Unicode序列: String对象存储的是Unicode字符序列，其内部实现可能根据字符范围优化为1字节或2字节存储，但这属于JVM实现细节。
String.getBytes()与字符编码: String转换为byte[]时，其字节长度完全取决于所选的字符编码。不指定编码会使用平台默认编码，可能导致兼容性问题。
指定编码的重要性: 在进行String与byte[]之间的转换时，始终明确指定字符编码（例如StandardCharsets.UTF_8或StandardCharsets.UTF_16）是最佳实践，以确保程序的可移植性和正确性。
内存中的String字节占用: 如果需要估算String对象在内存中（不考虑对象头等开销，仅指字符数据部分）的字节占用，使用s.getBytes(StandardCharsets.UTF_16BE).length可以提供一个近似值，因为它反映了每个char占用2字节的情况。

理解这些基本概念对于处理文本数据、网络通信、文件I/O以及数据库交互中的字符编码问题至关重要。

标题：Java 中使用递归构建嵌套字符串路径的层级 Map 结构

标题：Java 中使用 Stream 和递归 Map 实现嵌套字符串的层级分组

如何将数组中的奇数与偶数分别存入两个独立数组并输出

标题：Java Stream 实现嵌套字符串的递归分组（模拟树形结构映射）

如何在自动化测试中正确读取Excel数据驱动测试数据