嵌套文档适合单次读写为主、结构稳定、问题数≤50的场景;若需高频跨问卷聚合统计,则应拆分为独立集合并建索引。

用嵌套文档还是集合拆分?先看查询模式
动态问题和动态答案本质是「一对多的可变结构」,但 MongoDB 不是关系型数据库,硬套外键或预设字段会很快失控。关键判断依据是:你查得多的是单份问卷详情,还是跨问卷统计某个问题的答案分布?
如果 80% 请求是「查某次提交的完整答卷」,answers 字段直接存数组嵌套文档最省事;如果常做「所有问卷中‘年龄’选项选‘35–44’的人数」这类聚合,就得把答案单独建集合,加索引才扛得住。
- 嵌套文档适合:问卷结构稳定、单次读写为主、问题数 ≤ 50、答案项总长度
- 独立集合适合:答案要频繁按题号/选项值筛选、需原子更新单个答案、问卷量超百万级
- 混合方案也常见:
questions集合存题干和类型,submissions存答卷主干(含user_id、created_at),再用answers集合关联 —— 但得自己维护一致性,别指望 MongoDB 帮你级联
answers 数组里怎么存动态答案?别用固定字段名
很多人一开始给每个问题配一个字段:q1、q2……结果新增问题就得改 schema,还触发全量迁移。正确做法是让每个答案对象自带标识,靠程序逻辑识别题型:
{ "question_id": "q_age", "type": "single_choice", "value": "35-44" }
{ "question_id": "q_hobbies", "type": "multi_choice", "value": ["reading", "hiking"] }
{ "question_id": "q_comment", "type": "text", "value": "建议增加夜间场次" }
这样增删题只要改前端和 questions 集合,后端无需动模型。注意 value 类型必须统一为字符串或数组,别混用 —— 否则聚合时 $group 会漏掉某些类型。
- 避免用
answer_1、answer_2这类序号字段,题序可能调整,序号就失效 -
question_id必须全局唯一且不可变,别用中文题干当 ID,改错字就断链 - 如果允许跳题,
value可为null或留空数组,但别删整个对象,否则无法对齐题干顺序
聚合统计时为什么 $unwind 后数据暴涨?小心空数组陷阱
用 $unwind 拆 answers 数组做统计时,如果某条答卷 answers 是空数组 [],默认行为会直接丢弃整条记录 —— 导致总数不准。这不是 bug,是设计如此。
解决办法是加 preserveNullAndEmptyArrays: true 参数,让空数组也生成一条 null 记录,后续再用 $match 过滤掉无效项:
db.submissions.aggregate([
{ $unwind: { path: "$answers", preserveNullAndEmptyArrays: true } },
{ $match: { "answers.question_id": "q_age" } },
{ $group: { _id: "$answers.value", count: { $sum: 1 } } }
])
- 不加
preserveNullAndEmptyArrays,空答卷在统计中彻底消失,你以为漏了数据,其实是被$unwind默默吞了 - 如果问题支持「未作答」状态,建议显式存
{"question_id": "q_age", "value": null},比空数组更可控 - 嵌套太深(比如答案里还有子选项)时,多次
$unwind会让内存飙升,优先考虑应用层拆解
索引怎么建才不白费?重点盯住高频过滤字段
别一上来就给整个 answers 数组建索引 —— MongoDB 对数组字段建索引会为每个元素单独建条目,空间爆炸且几乎没用。真正该索引的是你实际用来 find 或 aggregate 的路径:
- 查某用户所有答卷:
db.submissions.createIndex({ user_id: 1 }) - 按题号查所有答案:
db.submissions.createIndex({ "answers.question_id": 1, "answers.value": 1 })(复合索引,顺序不能反) - 按时间范围+题号查:
db.submissions.createIndex({ created_at: -1, "answers.question_id": 1 })
注意 "answers.question_id" 这种点号路径索引只对数组内对象生效,对顶层字段无效。如果发现 explain() 里 indexOnly 是 false,大概率是索引没覆盖到你要的投影字段,得补上。
动态字段名(比如用 q_20240501 当 question_id)会让索引失效,因为查询时没法预知字段名。固定命名才是可维护的前提。










