
本文介绍一种基于 unicode 字符码映射的字符串“可逆反转”技术:对每个字符的 utf-16 代码点取补(如 0xffff - code),并妥善处理空字符串与长度差异问题,使原列表按常规字典序升序排列后,其反转值排序结果恰好为原序的逆序。
在 JavaScript 中,标准字典序(lexicographic order)本质上是按字符串 UTF-16 编码单元(code unit)逐位比较的——即从左到右依次比较每个字符的 charCodeAt(0) 值,遇到第一个不等处即决定大小关系;若某字符串是另一字符串的前缀,则较短者更小(如 '' 保序反向映射函数 invert(s),使得:
对任意两字符串 a, b,有a invert(b)(字典序)
核心思路:逐字符取反 + 终止符增强
最直接的方法是对每个字符的 16 位代码点做按位补码映射:
c → String.fromCharCode(0xFFFF - c.charCodeAt(0))
该映射是严格递减的(因 charCodeAt 是整数,0xFFFF − x 随 x 增大而严格减小),从而保证相同长度字符串的字典序被完全翻转。
但仅此还不够:原始比较中,短字符串天然小于长字符串(如 'x'
✅ 解决方案:添加统一且足够大的终止标记
由于 0xFFFF 是 UTF-16 可表示的最大基本多文种平面(BMP)码点,我们可在反转后的字符串末尾追加 \uFFFF(或更稳健的双字符标记),确保:
- 所有非空字符串的反转结果均以 \uFFFF 结尾;
- 空字符串 '' 的反转结果仅为 \uFFFF,从而大于任何非空字符串的反转结果(因其长度为 1,而其他结果长度 ≥ 2);
- 这样,“短→大”的关系被显式建模,匹配原始“短→小”的逻辑反转。
以下是推荐实现(兼顾简洁性与鲁棒性):
function invert(s) {
if (s.length === 0) return '\uFFFF';
return s
.split('')
.map(c => String.fromCharCode(0xFFFF - c.charCodeAt(0)))
.join('') + '\uFFFF';
}完整验证示例
const sample = ['', ' ', 'a', 'A', '@', '한', '자', '한자', '자한'];
// 原始升序(使用标准字符串比较)
const original = [...sample].sort((a, b) => +(a > b) - +(a < b));
// 反转后升序 → 等价于原始降序
const inverted = [...sample].sort((a, b) =>
+(invert(a) > invert(b)) - +(invert(a) < invert(b))
);
console.log('original:', original);
// ['', ' ', '@', 'A', 'a', '한', '자', '한자', '자한']
console.log('inverted (should equal original.reverse()):', inverted);
// ['자한', '한자', '자', '한', 'a', 'A', '@', ' ', '']注意事项与边界说明
- ⚠️ invert() 输出不是有效 UTF-8 / 可读文本:它生成的是人为构造的比较代理串,可能包含控制字符甚至非法码点组合(如 0xFFFF 在 UTF-8 中需 3 字节编码,但 JS 内部以 UTF-16 处理,此处无运行时问题);
- ⚠️ 仅适用于 sort() 比较器中的临时用途,不可用于显示、存储或网络传输;
- ✅ 兼容所有 Unicode 字符(包括 BMP 外字符):因 JS 字符串内部以 UTF-16 表示,charCodeAt() 对代理对首项返回高位代理值(0xD800–0xDFFF),本方案仍保持单调性(尽管高位代理本身已被映射为 0xFFFF − 0xD800 ≈ 0x27FF,属 BMP 有效区);
- ? 若需支持更严苛场景(如含 \u0000 的字符串),可升级为「双字符编码」方案(如将每个字符映射为 ' ' + invertedChar,结尾加 $),但对绝大多数用例,上述 \uFFFF 后缀已足够可靠。
总之,该技术以极小开销实现了字典序的数学级逆序映射,是排序优化、索引构建或测试数据生成中的实用技巧。










