使用Node.js流可避免大文件内存溢出,通过fs.createReadStream分块读取,配合pipe实现高效数据传输与Transform流处理数据转换,确保低内存占用。

处理大文件时,如果一次性将整个文件读入内存,很容易导致内存溢出。Node.js 的 Stream 模型正是为这类场景设计的——它允许你以“流”的方式逐块处理数据,从而避免内存压力。
使用可读流分块读取文件
通过 fs.createReadStream() 创建一个可读流,文件会被分成小块(chunks)逐步读取,而不是全部加载到内存中。
例如,读取一个 1GB 的日志文件:
const fs = require('fs');
const readStream = fs.createReadStream('large-file.log', {
encoding: 'utf8',
highWaterMark: 64 * 1024 // 每次读取 64KB
});
readStream.on('data', (chunk) => {
// 处理每个数据块,比如搜索关键词
console.log(Received chunk of ${chunk.length} characters);
});
readStream.on('end', () => {
console.log('文件读取完成');
});
readStream.on('error', (err) => {
console.error('读取出错:', err);
});
highWaterMark 控制每次读取的数据量,可根据系统资源调整,避免过小影响性能或过大占用内存。
通过管道(pipe)高效传输数据
最安全高效的方式是使用 pipe() 方法,它自动处理背压(backpressure),确保写入速度跟不上时暂停读取。
比如复制大文件:
const fs = require('fs');
const readStream = fs.createReadStream('source-big-file.zip');
const writeStream = fs.createWriteStream('copy-big-file.zip');
readStream.pipe(writeStream);
writeStream.on('finish', () => {
console.log('文件复制完成');
});
这种方式几乎不消耗额外内存,因为数据从源流直接“流入”目标流,中间不会堆积。
在流中进行转换处理
如果需要修改内容(如压缩、过滤、转码),可以插入一个 Transform 流。
例如,将文本转为大写并写入新文件:
const fs = require('fs');
const { Transform } = require('stream');
const upperCaseTransform = new Transform({
transform(chunk, encoding, callback) {
callback(null, chunk.toString().toUpperCase());
}
});
const readStream = fs.createReadStream('input.txt');
const writeStream = fs.createWriteStream('output.txt');
readStream.pipe(upperCaseTransform).pipe(writeStream);
Transform 流天然支持背压管理,确保处理节奏与数据流动匹配。
基本上就这些。用好可读流、可写流和 pipe,再结合 Transform 做中间处理,就能轻松应对 GB 级文件而不担心内存爆炸。关键是避免把整个文件塞进内存,始终以“流”的思维来设计数据流动。










