insert多值插入适合小批量且需事务控制的场景,单语句建议≤1000行并显式包裹事务;copy(pg)和load data(mysql)绕过sql层、速度快但为事务原子块,不支持部分回滚,且受权限、路径、字符集等现实约束。

INSERT 多值插入适合小批量且需事务控制的场景
单条 INSERT 语句带多组值(INSERT INTO t VALUES (1,'a'),(2,'b'),(3,'c'))本质仍是 SQL 语句,走常规解析、权限校验、触发器、约束检查流程。它能被包裹在事务里,出错可回滚,但每执行一次仍要经历一次网络往返(除非用管道或批量提交)、一次 WAL 写入和一次行锁竞争。
常见错误是误以为“多值 = 高性能”,结果插入 10 万行时拆成 100 条含 1000 值的 INSERT,反而因单语句过大触发 max_allowed_packet 错误,或在高并发下加剧锁等待。
- 单条
INSERT ... VALUES最好控制在 1000 行以内,具体上限看max_allowed_packet和平均行宽 - 必须用事务包裹:显式
BEGIN/COMMIT,否则每条多值语句仍是独立事务(取决于 autocommit 设置) - 有触发器或外键约束时,性能会明显下降——每个值组都会触发完整校验逻辑
COPY(PostgreSQL)绕过 SQL 层,快但不支持事务回滚到中间点
COPY 是 PostgreSQL 的原生命令,直接把数据流喂给存储引擎,跳过词法/语法解析、查询优化、触发器调用。速度通常比 INSERT 快 5–10 倍,尤其对大表。但它不是 SQL 语句(虽可用 COPY ... FROM STDIN 在会话中执行),也不属于事务中可部分回滚的操作单元。
典型翻车现场:用 COPY 导入 100 万行,第 999999 行因类型不匹配报错,整批数据已写入,无法只回滚最后几行——要么全靠 ROLLBACK 撤销整个事务(前提是你把它包在事务里),要么手动清理脏数据。
- 必须在事务内使用才能整体回滚:
BEGIN; COPY ... ; COMMIT;或ROLLBACK; -
COPY FROM STDIN不支持服务端预处理,不能用参数化查询,字符串需提前转义(如\t、\n、\) - 目标列若定义了
DEFAULT或GENERATED,COPY默认不触发,需显式指定列名或用WITH (default_expression)(PG 15+)
LOAD DATA INFILE(MySQL)速度快但权限和路径限制多
LOAD DATA INFILE 是 MySQL 的类 COPY 操作,同样绕过 SQL 解析层,直接读文件进 buffer,再刷盘。在本地文件 + 关闭 innodb_flush_log_at_trx_commit 时,吞吐能到百万行/秒。但它依赖服务端文件系统路径,且默认要求 FILE 权限——这常被运维禁用,导致“Access denied for user ... using password: YES”错误。
另一个隐形坑:它默认按 LOCAL 关键字行为不同。客户端启用 LOAD DATA LOCAL INFILE 需服务端开启 local_infile=ON,且客户端驱动也得显式允许(如 Python 的 mysqlclient 要传 local_infile=True),否则静默失败或报错 Unable to open file。
- 服务端文件路径必须是 MySQL 进程可读的绝对路径,不能是客户端路径
- 字符集容易错乱:
LOAD DATA默认用表字符集解码,若文件是 UTF-8 BOM 或 GBK,需显式加CHARACTER SET utf8mb4 - 遇到格式错误(如字段数不匹配)默认停止导入,加
IGNORE可跳过坏行,但不会告诉你哪行错了
事务控制能力排序和选型建议
三者事务语义根本不同:INSERT 是标准 SQL 事务操作,支持任意粒度回滚;COPY 和 LOAD DATA 是“事务原子块”——整个命令成功或失败,内部不可拆分。这意味着,如果你需要按业务逻辑分批提交(比如每 5000 行记一次 checkpoint),只有 INSERT 多值 + 显式事务能自然支持。
真正影响最终选择的,往往不是理论速度,而是部署环境卡点:有没有 FILE 权限?能否上传临时文件到数据库服务器?是否允许关闭 autocommit?有没有触发器必须运行?这些现实约束,经常让看起来最快的方案根本跑不起来。
- 开发/测试环境优先试
COPY或LOAD DATA,但上线前务必验证权限链和错误恢复路径 - 涉及敏感字段或审计日志的场景,
INSERT多值仍是唯一选择——COPY/LOAD不触发AUDIT PLUGIN或通用日志记录 - 不要用“平均速度”做决策:10 万行
INSERT可能比 100 万行LOAD DATA更稳,因为后者一个配置错就全挂










