使用 jq 高效递归清理 JSON 数据：移除空值、类型转换与字符串修剪

心靈之曲

发布时间：2025-10-13 13:06:01

360人浏览过

来源于php中文网

原创

使用 jq 高效递归清理 JSON 数据：移除空值、类型转换与字符串修剪

本文详细介绍了如何使用 `jq` 工具对 json 数据进行高效的递归清理。内容涵盖了如何递归地移除空值（包括空字符串、空数组、空对象及空键值对），修剪所有字符串的空白，并将特定字符串（如 "true" 和 "false"）转换为布尔类型。文章通过优化 `walk` 函数，提供了一个高性能的 `jq` 解决方案，旨在降低 cpu 占用，提升数据预处理效率。

在数据处理流程中，经常需要对复杂的 JSON 数据进行清洗和标准化。这些操作包括移除无效或空的数据项、统一数据格式以及进行类型转换。对于嵌套层级较深的 JSON 结构，手动编写递归逻辑不仅繁琐，而且容易出错。jq 作为一款强大的命令行 JSON 处理器，提供了处理此类需求的优雅方案。

核心需求分析

本次数据清洗任务的核心需求可以归纳为以下几点：

递归移除空值： 需要从 JSON 结构中的任何层级移除以下类型的空值：
- 空数组 ([])
- 空对象 ({})
- 空字符串 ("")，包括仅包含空白字符的字符串 (" ", "\t")
- 键为空字符串的对象属性 ({"": 5})
- 值为 null 的属性。
递归修剪字符串空白： 对 JSON 中所有字符串类型的值（包括对象键）进行前后空白字符的修剪。
字符串到布尔值的类型转换： 将字符串 "true" 转换为布尔值 true，将字符串 "false" 转换为布尔值 false。

所有这些操作都必须以递归方式应用于整个 JSON 结构。

jq 中的 walk 函数与递归处理

jq 提供了一个内置的 walk 函数，它允许用户对 JSON 结构中的每个节点应用一个过滤器。walk(f) 的基本思想是：对于每个节点，它首先递归地处理其子节点，然后将函数 f 应用于当前节点。这使得 walk 成为处理递归清洗任务的理想选择。

用户最初尝试的 jq 解决方案利用了 walk 函数，并根据节点类型应用不同的清洗逻辑：

jq 'walk(
  if type == "string" then
    # 字符串处理：修剪空白并转换为布尔值
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
  elif type == "object" then
    # 对象处理：修剪键的空白，并移除空键或空值的条目
    with_entries(
      select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值
      | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") # 修剪键的空白
      | select(.key | length > 0) # 过滤空键
    )
  elif type == "array" then
    # 数组处理：移除空元素
    map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值
  else . end)'

这个方案在功能上是完整的，能够实现所有预期的清洗和转换。然而，在处理大规模数据或性能敏感的环境中，内置的 walk 函数可能不是最优选择，尤其是在 CPU 密集型场景下。

优化 walk 函数以提升性能

为了提高处理效率，我们可以定义一个自定义的、更高效的 walk 函数。标准的 jq 内置 walk 在某些实现中可能存在性能开销。通过自定义 walk 函数，我们可以更精细地控制递归过程，尤其是在对象处理上，使用 reduce keys_unsorted[] 通常比其他方法更高效。

以下是优化后的 walk 函数定义：

灵云AI开放平台

下载

# 定义一个优化的 walk 函数
def walk(f):
  def w:
    if type == "object" then
      # 对于对象，递归处理每个键值对，然后将函数 f 应用于整个对象
      . as $in
      | reduce keys_unsorted[] as $key
          ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then
      # 对于数组，递归处理每个元素，然后将函数 f 应用于整个数组
      map( w ) | f
    else
      # 对于其他类型（如字符串、数字、布尔值、null），直接应用函数 f
      f
    end;
  w;

这个优化后的 walk 函数通过以下方式提升了性能：

明确的递归路径： 对于对象和数组，它明确地通过 reduce keys_unsorted[] 和 map 来处理子元素，然后将 f 应用于当前节点。
避免不必要的拷贝： reduce 配合 {} 初始化和 .+ 操作通常比其他对象构建方式更高效。
直接应用 f： 对于非容器类型（字符串、数字等），直接应用 f，减少了额外的处理开销。

结合优化 walk 与数据清洗逻辑

现在，我们将之前的数据清洗和转换逻辑封装到一个独立的 jq 过滤器中，并将其作为参数传递给优化后的 walk 函数。

# 定义优化的 walk 函数
def walk(f):
  def w:
    if type == "object" then
      . as $in
      | reduce keys_unsorted[] as $key
          ( {}; . + { ($key):  ($in[$key] | w) } ) | f
    elif type == "array" then
      map( w ) | f
    else
      f
    end;
  w;

# 定义数据清洗和转换逻辑
def cleanup_transform_filter:
  if type == "string" then
    # 字符串处理：修剪空白并转换为布尔值
    (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then true elif . == "false" then false else . end)
  elif type == "object" then
    # 对象处理：修剪键的空白，并移除空键或空值的条目
    with_entries(
      .key |= (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "")) # 修剪键的空白
      | select(.key | length > 0) # 过滤空键
      | select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值
    )
  elif type == "array" then
    # 数组处理：移除空元素
    map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值
  else
    . # 其他类型保持不变
  end;

# 应用优化后的 walk 函数和清洗逻辑
walk(cleanup_transform_filter)

示例输入 JSON：

{
  "key1": "  value1  ",
  "key2": "",
  "key3": "true",
  "key4": "false",
  "key5": null,
  "key6": [],
  "key7": {},
  "  key8  ": 123,
  "key9": [
    "  array_val  ",
    "",
    null,
    {},
    "false"
  ],
  "key10": {
    "sub_key1": "  sub_val  ",
    "sub_key2": "",
    " ": 456,
    "sub_key3": []
  },
  "": "empty_key_value"
}

使用上述 jq 脚本处理后的输出：

{
  "key1": "value1",
  "key3": true,
  "key4": false,
  "key8": 123,
  "key9": [
    "array_val",
    false
  ],
  "key10": {
    "sub_key1": "sub_val"
  }
}

从输出可以看出：

所有字符串前后空白已被修剪。
字符串 "true" 和 "false" 已转换为布尔值。
空字符串、null、空数组、空对象以及空键的属性均已被移除。

注意事项与总结

jq 版本兼容性： 上述脚本中使用的 sub 函数和 . != "" and . != null ... 这种组合适用于 jq 1.6 及更高版本。如果使用更旧的版本，可能需要调整某些语法。特别是，IN 运算符在较旧的 jq 版本中不可用，因此使用 or 组合条件是更通用的做法。
性能考量： 尽管优化了 walk 函数，但对于极其庞大且嵌套极深的 JSON 数据，jq 的递归处理仍然会消耗一定的 CPU 资源。如果数据量达到 TB 级别，或者对延迟有极高的要求，可能需要考虑流式处理（如 jq --stream）或使用其他语言（如 Python、Go）编写更定制化的解析器。
可读性与维护性： 将清洗逻辑封装到独立的 def 过滤器中，可以提高脚本的可读性和维护性。当需要修改清洗规则时，只需调整 cleanup_transform_filter 即可。
避免重复造轮子： jq 在处理 JSON 结构化数据方面表现出色，尤其是在递归遍历和转换方面。在考虑使用其他编程语言（如 JavaScript 或 Groovy）重写之前，应充分探索 jq 的优化潜力，因为它往往能以更简洁、高效的方式解决此类问题。

通过上述优化方案，我们能够在 jq 中高效地实现复杂的 JSON 数据清洗和转换任务，从而更好地支持数据预处理流程。

JavaScript中typeof操作符对各种数据类型的检测结果

JavaScript大整数BigInt在长数字运算中的应用规范

JavaScript脚本文件的字符编码UTF8配置注意事项

JavaScript字符串大小写转换toLowerCase方法规范

JavaScript中String-raw方法在处理原始字符串作用

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：解决Persistent UTM代码导致链接意外添加问号的问题下一篇：解决Chrome内容脚本加载与执行问题：一份详尽的调试指南

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23