现代C++推荐UTF-8优先:源码与字面量用u8前缀,std::string存UTF-8字节流,跨平台避免wchar_t;系统交互按需转换,国际化结合ICU或fmtlib。

现代C++处理Unicode和UTF-8,核心是明确区分编码、表示和操作层次:源码用UTF-8保存,字符串用std::string(UTF-8字节序列),宽字符慎用,I/O与系统交互时按需转换,国际化靠标准库+ICU等辅助。
源文件与字符串字面量:用UTF-8,加u8前缀
C++11起支持UTF-8字面量。确保编辑器保存为UTF-8(无BOM),并在字符串前加u8前缀:
✔ 正确(推荐):const std::string hello = u8"你好,Hello ?"; // 编译期转为UTF-8字节流
✘ 避免:const char* s = "你好"; // 源文件编码不明,行为未定义
不加u8时,编译器按执行字符集处理(常为locale相关),跨平台极易出错。
立即学习“C++免费学习笔记(深入)”;
运行时字符串:用std::string存UTF-8,别用wchar_t或std::wstring
UTF-8是变长编码,std::string天然适配——它只管字节,不管语义。而wchar_t在Windows是UTF-16,在Linux/macOS通常是UTF-32,大小和含义都不统一,跨平台std::wstring几乎不可移植。
常见做法:
- 内部存储、网络传输、文件读写,一律用
std::string+ UTF-8 - 需要按Unicode码点操作(如计数、切分)时,用轻量库解析UTF-8(如imgui的utf8.h或utf8cpp)
- 避免
str.length()当“字符数”用——它返回字节数;应遍历UTF-8序列获取真实码点数
系统交互:按需转换,不硬编码宽字符API
Windows GUI/API常用UTF-16(L"..."),Linux/macOS终端和文件系统原生支持UTF-8。跨平台时:
- Windows上显示/输入:用
MultiByteToWideChar(CP_UTF8, ...)转UTF-16传给Win32 API;接收时反向转换 - macOS/Linux:终端、
printf、std::cout直接支持UTF-8(确保locale为en_US.UTF-8等) - 文件读写:用
std::ofstream以二进制模式打开,写入std::string即可——UTF-8就是纯字节流
不要全局切换std::wcout或_setmode(_fileno(stdout), _O_U16TEXT),这会让逻辑耦合平台细节。
国际化(i18n):用标准库locale + ICU或fmtlib
C++标准库提供基础本地化(数字、货币、日期格式),但不处理翻译或Unicode文本边界分析。生产项目推荐:
- ICU库:工业级Unicode支持(正则、排序、断行、双向文本、CLDR数据)
-
fmtlib({fmt}):支持
{:对UTF-8字符串正确对齐(自动按码点而非字节) -
gettext + .po文件:成熟翻译流程,配合
libintl或fmt::v9::translate
例如用fmt做安全的本地化格式化:
fmt::print("Hello {}", name); // name是UTF-8 string,自动对齐、不截断多字节
基本上就这些。不复杂但容易忽略:坚持UTF-8贯穿始终,把编码转换限制在系统边界,其余交给标准容器和专注Unicode的第三方库。










