Node.js 直接连 PHP 处理大数据时内存溢出的根源在于 exec 缓存全部 stdout,应改用 spawn 流式读取并配合 PHP 分批输出。

Node.js 直接连 PHP(比如通过 child_process.exec 或 spawn 调用 PHP CLI)处理大数据时,内存溢出不是 PHP 的问题,而是 Node.js 自身的缓冲区和子进程通信方式导致的——尤其当 PHP 输出大量内容未被及时消费时,数据全堆在 Node.js 进程内存里。
为什么 exec 容易爆内存
exec 会把整个子进程 stdout 缓存在内存中,等命令结束才一次性返回 stdout 字符串。哪怕 PHP 只是 echo 10MB JSON,Node.js 就得先分配 10MB+ 内存存它,再解析——中间无流控、无释放。
- PHP 脚本输出越长,Node.js 堆内存占用越陡峭
- 错误现象常见:
FATAL ERROR: Ineffective mark-compacts near heap limit或JavaScript heap out of memory - 即便加了
--max-old-space-size=4096,也只是延缓崩溃,不解决根本问题
改用 spawn + stdout.on('data') 流式读取
这是最直接有效的解法:让 Node.js 不等 PHP 结束,而是边收边处理,内存只保留当前 chunk,不累积。
const { spawn } = require('child_process');
const php = spawn('php', ['script.php']);
php.stdout.on('data', (chunk) => {
// 每次只拿到 Buffer,可转字符串后按行/按 JSON 对象拆分
const lines = chunk.toString().split('\n').filter(Boolean);
for (const line of lines) {
try {
const item = JSON.parse(line); // 假设 PHP 每行输出一个 JSON 对象
processItem(item); // 立即处理,不堆积
} catch (e) {
console.error('parse fail:', line);
}
}
});
php.stderr.on('data', (data) => {
console.error(`PHP error: ${data}`);
});
php.on('close', (code) => {
if (code !== 0) console.error(`PHP exited with code ${code}`);
});
- PHP 脚本需配合输出格式:避免大块 JSON,推荐每行一个对象(NDJSON)或带分隔符
- 务必监听
stderr,否则 PHP 报错会被静默吞掉 - 不要在
data回调里做重操作(如写文件、发 HTTP),否则阻塞流读取,缓冲区仍可能涨
PHP 端主动分批输出,控制单次负载
Node.js 流式接收只是“接得住”,真正减压还得靠 PHP 主动切片——比如查 100 万条记录,别一次 echo json_encode($all),而要循环分页或游标输出。
立即学习“PHP免费学习笔记(深入)”;
- 用
yield或foreach+ob_flush()+flush()强制输出(CLI 下flush()有效) - 示例节选(PHP):
for ($i = 0; $i < $total; $i += $batchSize) { $rows = getBatch($i, $batchSize); // 从 DB 或文件读一批 foreach ($rows as $row) { echo json_encode($row) . "\n"; } // CLI 下 flush 确保 Node.js 能立刻收到 if (function_exists('ob_flush')) ob_flush(); flush(); } - 避免在 PHP 中使用
memory_limit过高硬扛——这只会把压力转移到 Node.js 接收端
额外兜底:超时与信号控制防僵死
大数据处理时间不可控,PHP 子进程卡住或无限输出时,Node.js 必须能主动终止。
- 给
spawn加{ timeout: 30000 },超时自动 kill - 监听
php.on('error')处理 spawn 失败(如 php 命令不存在) - 必要时手动
php.kill('SIGTERM'),并等待close事件确认退出 - 注意:Windows 下
SIGTERM不生效,可用'SIGINT'或直接php.kill()
真正难的不是“怎么分批”,而是两端节奏对齐:PHP 输出不能太快太猛,Node.js 接收不能太慢太懒——缓冲区大小、事件循环负载、JSON 解析开销,都得实测调整。一次跑通不等于稳,压测时重点看 Node.js 的 heapUsed 是否平稳,而不是只盯有没有报错。











